数据爬取1
爬取百度实时热点排行榜
爬虫爬取的内容:百度实时热点排行榜的排名、标题和热搜指数。
爬虫技术要求:使用网络请求模块 requests 与 lxml 模块中的 XPath 解析器,爬取百度实时热点排行榜(网址:https://top.baidu.com/board?tab=realtime)。
爬虫设计方案: (1)使用 requests.get(url) 函数向服务器提交请求; (2)然后将响应的网页信息交给 lxml 库解析,获取自己想要的内容; (3)最后使用 open() 函数将爬取的数据写入 TXT 文件。
表达式 描述
Nodename 选取此节点的所有子节点
/ 从当前节点选取子节点
// 从当前节点选取子孙节点
. 选取当前节点
.. 选取当前节点的父节点
@ 选取属性
* 选取所有节点
TXT 文件存储
如果想要简单地进行 TXT 文件存储工作,可以通过 open() 函数操作文件实现,即需要先创建或者打开指定的文件并创建文件对象。open() 函数的基本语法格式如下:
file = open(filename[,mode[,buffering]])
值
说明
注意
r
以只读模式打开文件。文件的指针将会放在文件的开头
文件必须存在
rb
以二进制格式打开文件,并且采用只读模式。文件的指针将会放在文件的开头,一般用于非文