admin cad技巧 2023-06-14 05:55:37

数据爬取1

爬取百度实时热点排行榜

爬虫爬取的内容：百度实时热点排行榜的排名、标题和热搜指数。

爬虫技术要求：使用网络请求模块 requests 与 lxml 模块中的 XPath 解析器，爬取百度实时热点排行榜（网址：https://top.baidu.com/board?tab=realtime）。

爬虫设计方案：（1）使用 requests.get(url) 函数向服务器提交请求；（2）然后将响应的网页信息交给 lxml 库解析，获取自己想要的内容；（3）最后使用 open() 函数将爬取的数据写入 TXT 文件。

表达式描述

Nodename 选取此节点的所有子节点

/ 从当前节点选取子节点

// 从当前节点选取子孙节点

. 选取当前节点

.. 选取当前节点的父节点

@ 选取属性

* 选取所有节点

TXT 文件存储

如果想要简单地进行 TXT 文件存储工作，可以通过 open() 函数操作文件实现，即需要先创建或者打开指定的文件并创建文件对象。open() 函数的基本语法格式如下：

file = open(filename[,mode[,buffering]])

值

说明

注意

以只读模式打开文件。文件的指针将会放在文件的开头

文件必须存在

以二进制格式打开文件，并且采用只读模式。文件的指针将会放在文件的开头，一般用于非文

分享到：