一个使用 Python 编写的轻量级百度爬虫

一个使用 Python 编写的轻量级百度爬虫

2022-09-16 0 903
资源编号 38573 最近更新 2022-09-16
¥ 0人民币 升级VIP
立即下载 注意事项
下载不了?请联系网站客服提交链接错误!
增值服务: 安装指导 环境配置 二次开发 模板修改 源码安装

本期推荐的是一个使用 Python 编写的轻量级百度爬虫——BaiduSpider。

一个使用 Python 编写的轻量级百度爬虫

BaiduSpider 是一个使用 Python 编写的轻量级百度爬虫。它基于 Requests 和 BeautifulSoup 构建,并提供了易用的 API 接口以及完善的类型注释,提升开发者的使用体验。

功能特性

  • 节省提取数据的时间,对于类似深度学习项目的数据模型建立与训练起到了良好的帮助
  • 精准、快速地提取百度搜索结果,并删除广告
  • 搜索结果大而全,支持多种搜索类型,支持多种返回类型
  • 提供了简洁易用的 API

安装

依赖环境:

Python 3.6+

使用pip安装:

$ pip install baiduspider

从 GitHub 手动安装:

$ git clone git@github.com:BaiduSpider/BaiduSpider.git

# ...

$ python setup.py install

示例

百度网页搜索,也可以作为综合搜索使用。

BaiduSpider.search_web(
    self: BaiduSpider,
    query: str,
    pn: int = 1,
    exclude: list = [],
    proxies: Union[dict, None] = None,
) -> WebResult

参数

  • query str:要查询网页搜索的字符串
  • pn int:要爬取的页码,默认为1,可选
  • exclude dict:要屏蔽的子部件列表,可选
  • time str | List[datetime.datetime]: 搜索时间范围
  • proxies Union[dict, None]: 代理配置,默认为None,可选

实例

基本的调用:这是一个最基本的参数—— query 。它用于传递搜索词(字符串类型)。

# 导入BaiduSpider
from baiduspider import BaiduSpider
from pprint import pprint

# 实例化BaiduSpider
spider = BaiduSpider()

# 搜索网页
pprint(spider.search_web(query="要搜索的关键词").plain)

指定页码:你可以通过设置 pn 参数来更改 BaiduSpider 所获取的页码。

from baiduspider import BaiduSpider
from pprint import pprint

spider = BaiduSpider()

# 搜索网页,并传入页码参数(此处为第二页)
pprint(spider.search_web(query="要搜索的关键词", pn=2).plain)

注意:传入页码参数的时候一定要小心,务必不要传入过大的页码,否则百度搜索会自动跳转回第一页。


屏蔽特定的搜索结果:这个参数可以为你提供很大的便捷。通过设置 exclude 列表,你可以屏蔽某些特定的网页搜索子搜索结果来提高解析速度。

from baiduspider import BaiduSpider
from pprint import pprint

spider = BaiduSpider()

# 搜索网页,并传入要屏蔽的结果
# 在本样例中,屏蔽了贴吧和博客
pprint(spider.search_web(query="要搜索的关键词", exclude=["tieba", "blog"]).plain)

exclude 的值可以包含:[“news”, “video”, “baike”, “tieba”, “blog”, “gitee”, “related”, “calc”],分别表示:资讯,视频,百科,贴吧,博客,Gitee代码仓库,相关搜索,计算。 exclude 的值也可以是[“all”],表示屏蔽除了普通搜索结果外的所有搜索结果。实例:

from baiduspider import BaiduSpider
from pprint import pprint

spider = BaiduSpider()

# 搜索网页,并传入要屏蔽的结果
# 在本样例中,屏蔽了所有非普通的搜索结果
pprint(spider.search_web(query="要搜索的关键词", exclude=["all"]).plain)

如果 exclude 中包含all且还有其他参数,那么将按照只有all的方式过滤搜索结果。


按时间筛选: time 参数能够实现更精准的搜索。 time 的取值可以是一个字符串或者是一个由 datetime.datetime 组成的元组。比如,使用字符串形式:

from baiduspider import BaiduSpider
from pprint import pprint

spider = BaiduSpider()

# 搜索网页,仅显示时间段内的搜索结果
# 在本样例中,筛选后仅显示一周内的搜索结果
pprint(spider.search_web(query="要搜索的关键词", time="week").plain)

此功能使用百度内置的搜索时间筛选器筛选结果,并非使用程序筛选。在这个样例中, time 的值是”week”,代表筛选一周内的搜索结果。 time 的可选值如下:[“day”, “week”, “month”, “year”]。分别表示:一天内、一周内、一月内、一年内。除此以外,BaiduSpider 还支持自定义时间段。例如:

from baiduspider import BaiduSpider
from pprint import pprint
from datetime import datetime

spider = BaiduSpider()

# 在本样例中,筛选后仅显示2020.1.5 - 2020.4.9的搜索结果
pprint(spider.search_web(query="要搜索的关键词", time=(datetime(2020, 1, 5), datetime(2020, 4, 9))).plain)

在这个样例中, time 的值是一个元组(tuple)。元组的第一个值是起始时间,第二个值是结束时间。BaiduSpider会把他们都转化成 time.time() 形式的浮点数(然后仅保留整数),所以你也可以将 datetime 替换为一个整数。

—END—

此项目使用GPL3.0开源协议,更多功能大家可自行前往阅读。

资源下载此资源为免费资源立即下载

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 免费源码 一个使用 Python 编写的轻量级百度爬虫 https://www.7claw.com/38573.html

分享免费的开源源码

常见问题
  • 1、自动:拍下后,点击(下载)链接即可下载;2、手动:拍下后,联系卖家发放即可或者联系官方找开发者发货。
查看详情
  • 1、源码默认交易周期:手动发货商品为1-3天,并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放,如遇纠纷无限期延长收款金额直至纠纷解决或者退款!;
查看详情
  • 1、七爪会对双方交易的过程及交易商品的快照进行永久存档,以确保交易的真实、有效、安全! 2、七爪无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保,请买家自行鉴别; 3、在源码同时有网站演示与图片演示,且站演与图演不一致时,默认按图演作为纠纷评判依据(特别声明或有商定除外); 4、在没有”无任何正当退款依据”的前提下,商品写有”一旦售出,概不支持退款”等类似的声明,视为无效声明; 5、在未拍下前,双方在QQ上所商定的交易内容,亦可成为纠纷评判依据(商定与描述冲突时,商定为准); 6、因聊天记录可作为纠纷评判依据,故双方联系时,只与对方在七爪上所留的QQ、手机号沟通,以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小,但一定要保留如聊天记录、手机短信等这样的重要信息,以防产生纠纷时便于七爪介入快速处理。
查看详情
  • 1、七爪作为第三方中介平台,依据交易合同(商品描述、交易前商定的内容)来保障交易的安全及买卖双方的权益; 2、非平台线上交易的项目,出现任何后果均与互站无关;无论卖家以何理由要求线下交易的,请联系管理举报。
查看详情

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务