首页免费源码正文

我要投稿

一个高效的Python爬虫框架Scrapy

免费源码免费源码

2022-09-02 0 1,009

资源编号 38015 最近更新 2022-09-02

¥ 0人民币升级VIP 尊享海量资源免费下载特权

点赞 (0) 收藏 (0)

立即下载注意事项

下载不了？请联系网站客服提交链接错误！

增值服务：安装指导环境配置二次开发模板修改源码安装

详情介绍
常见问题
相关文章
发表评论

立即咨询

本期推荐的 Scrapy是一个快速的高级网页抓取和网页抓取框架，用于抓取网站并从其页面中提取结构化数据。它可用于广泛的用途，从数据挖掘到监控和自动化测试。

框架示例

Scrapy 是一个用于抓取网站和提取结构化数据的应用程序框架，可用于各种有用的应用程序，如数据挖掘、信息处理或历史存档。

下面是一个爬虫的代码，它从网站
http://quotes.toscrape.com 中抓取名言，遵循分页：

import scrapy


class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    start_urls = [
        'http://quotes.toscrape.com/tag/humor/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'author': quote.xpath('span/small/text()').get(),
                'text': quote.css('span.text::text').get(),
            }

        next_page = response.css('li.next a::attr("href")').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

将其放入一个文本文件中，将其命名为类似名称 quotes_spider.py 并使用以下 runspider 命令运行：

scrapy runspider quotes_spider.py -o quotes.jl

完成后，您将在 quotes.jl 文件中获得 JSON 行格式的引号列表，其中包含文本和作者，如下所示：

{"author": "Jane Austen", "text": "\u201cThe person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.\u201d"}
{"author": "Steve Martin", "text": "\u201cA day without sunshine is like, you know, night.\u201d"}
{"author": "Garrison Keillor", "text": "\u201cAnyone who thinks sitting in church can make you a Christian must also think that sitting in a garage can make you a car.\u201d"}
...

蜘蛛中间件

Spider 中间件是 Scrapy 蜘蛛处理机制的钩子框架，可以在其中插入自定义功能来处理发送给Spider进行处理的响应以及处理从蜘蛛生成的请求和项目。

架构概览

数据流：

执行流程：

1. 该引擎获取从最初请求爬行蜘蛛。
2. 该引擎安排在请求调度程序和要求下一个请求爬行。
3. 该计划返回下一请求的引擎。
4. 该引擎发送请求到下载器，通过下载器中间件。
5. 页面完成下载后，下载器生成一个响应（带有该页面）并将其发送到引擎，通过下载器中间件。
6. 该引擎接收来自响应下载器并将其发送到所述蜘蛛进行处理，通过蜘蛛中间件。
7. 该蜘蛛处理响应并返回旗下的项目和新的要求（跟随）的引擎，通过蜘蛛中间件。
8. 该引擎发送处理的项目，以项目管道，然后把处理的请求的调度，并要求今后可能请求爬行。
9. 该过程重复（从第 1 步开始），直到不再有来自Scheduler 的请求。

安装指南

Scrapy 需要 Python 3.6+，CPython 实现（默认）或 PyPy 7.2.0+ 实现。

安装 Scrapy

如果您使用的是Anaconda或Miniconda，则可以从conda- forge频道安装该软件包，该频道具有适用于 Linux、Windows 和 macOS 的最新软件包。

要使用安装 Scrapy conda，请运行：

conda install -c conda-forge scrapy

或者，如果您已经熟悉 Python 包的安装，则可以使用以下命令从 PyPI 安装 Scrapy 及其依赖项：

pip install Scrapy

注意：Scrapy 是用纯 Python 编写的，并且依赖于一些关键的 Python 包

lxml，一个高效的 XML 和 HTML 解析器
parsel，一个写在 lxml 之上的 HTML/XML 数据提取库，
w3lib，用于处理 URL 和网页编码的多用途助手
扭曲，一个异步网络框架
密码学和pyOpenSSL，处理各种网络级安全需求

核心API

爬虫API

Scrapy API 的主要入口点是Crawler 对象，通过from_crawler类方法传递给扩展。该对象提供对所有 Scrapy 核心组件的访问，它是扩展访问它们并将其功能挂钩到 Scrapy 的唯一方法。

设置 API

设置 Scrapy 中使用的默认设置优先级的键名和优先级的字典。

每个项目都定义了一个设置入口点，为其提供了一个用于标识的代码名称和一个整数优先级。在Settings类中设置和检索值时，较大的优先级比较小的优222222先级更高。

蜘蛛加载器API

这个类负责检索和处理跨项目定义的蜘蛛类。

可以通过在SPIDER_LOADER_CLASS项目设置中指定它们的路径来使用自定义蜘蛛加载器。他们必须完全实现
scrapy.interfaces.ISpiderLoader接口以保证无错执行。

信号 API

将接收器的功能连接到信号。

信号可以是任何对象，尽管 Scrapy 带有一些预定义的信号，这些信号记录在信号部分。

统计收集器 API

scrapy.statscollectors模块下有几个可用的统计收集器，它们都实现了StatsCollector 类定义的统计收集器 API （它们都继承自）。

资源下载此资源为免费资源立即下载

收藏 (0) 点赞 (0)

申明：本文由第三方发布，内容仅代表作者观点，与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的，并不意味着赞同其观点或证实其描述，也不代表本网对其真实性负责。

七爪网免费源码一个高效的Python爬虫框架Scrapy https://www.7claw.com/38015.html

免费源码

分享免费的开源源码

上一篇：一个开源的增值税发票OCR 识别项目

下一篇：一个开源的Web区块链市场

常见问题

发货方式是什么？

1、自动：拍下后，点击（下载）链接即可下载；2、手动：拍下后，联系卖家发放即可或者联系官方找开发者发货。

查看详情

交易周期是多久呢？

1、源码默认交易周期：手动发货商品为1-3天，并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放，如遇纠纷无限期延长收款金额直至纠纷解决或者退款！；

查看详情

注意事项

1、七爪会对双方交易的过程及交易商品的快照进行永久存档，以确保交易的真实、有效、安全！ 2、七爪无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保，请买家自行鉴别； 3、在源码同时有网站演示与图片演示，且站演与图演不一致时，默认按图演作为纠纷评判依据（特别声明或有商定除外）； 4、在没有”无任何正当退款依据”的前提下，商品写有”一旦售出，概不支持退款”等类似的声明，视为无效声明； 5、在未拍下前，双方在QQ上所商定的交易内容，亦可成为纠纷评判依据（商定与描述冲突时，商定为准）； 6、因聊天记录可作为纠纷评判依据，故双方联系时，只与对方在七爪上所留的QQ、手机号沟通，以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小，但一定要保留如聊天记录、手机短信等这样的重要信息，以防产生纠纷时便于七爪介入快速处理。

查看详情

七爪声明