数据爬取1

爬取百度实时热点排行榜

爬虫爬取的内容:百度实时热点排行榜的排名、标题和热搜指数。

 

爬虫技术要求:使用网络请求模块 requests 与 lxml 模块中的 XPath 解析器,爬取百度实时热点排行榜(网址:https://top.baidu.com/board?tab=realtime)。

爬虫设计方案: (1)使用 requests.get(url) 函数向服务器提交请求; (2)然后将响应的网页信息交给 lxml 库解析,获取自己想要的内容; (3)最后使用 open() 函数将爬取的数据写入 TXT 文件。

 

表达式 描述

Nodename 选取此节点的所有子节点

/ 从当前节点选取子节点

// 从当前节点选取子孙节点

. 选取当前节点

.. 选取当前节点的父节点

@ 选取属性

* 选取所有节点

 

TXT 文件存储

如果想要简单地进行 TXT 文件存储工作,可以通过 open() 函数操作文件实现,即需要先创建或者打开指定的文件并创建文件对象。open() 函数的基本语法格式如下:

file = open(filename[,mode[,buffering]])

说明

注意

r

以只读模式打开文件。文件的指针将会放在文件的开头

文件必须存在

rb

以二进制格式打开文件,并且采用只读模式。文件的指针将会放在文件的开头,一般用于非文


比丘资源网 » 数据爬取1

发表回复

提供最优质的资源集合

立即查看 了解详情