Python爬虫基础之简单说一下scrapy的框架结构-巨人网络通讯

企业400电话

微网小程序

AI电话机器人

电商代运营

全部栏目

企业400电话网络优化推广 AI电话机器人呼叫中心网站建设商标✡知产微网小程序电商运营彩铃•短信增值拓展业务

Python爬虫基础之简单说一下scrapy的框架结构

scrapy 框架结构

思考

scrapy 为什么是框架而不是库?
scrapy是如何工作的?

项目结构

在开始爬取之前，必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令:

注意:创建项目时，会在当前目录下新建爬虫项目的目录。

这些文件分别是:

scrapy.cfg:项目的配置文件
quotes/:该项目的python模块。之后您将在此加入代码
quotes/items.py:项目中的item文件
quotes/middlewares.py:爬虫中间件、下载中间件(处理请求体与响应体)
quotes/pipelines.py:项目中的pipelines文件
quotes/settings.py:项目的设置文件
quotes/spiders/:放置spider代码的目录

Scrapy原理图

各个组件的介绍

1.Engine。引擎,处理整个系统的数据流处理、触发事务,是整个框架的核心。

2.ltem。项目,它定义了爬取结果的数据结构,爬取的数据会被赋值成该ltem对象。

3.Scheduler。调度器,接受引擎发过来的请求并将其加入队列中,在引擎再次请求的时候将请求提供给引擎。

4.Downloader。下载器,下载网页内容,并将网页内容返回给蜘蛛。

5.Spiders。蜘蛛,其内定义了爬取的逻辑和网页的解析规则,它主要负责解析响应并生成提结果和新的请求。

6.Item Pipeline。项目管道,负责处理由蜘蛛从网页中抽取的项目,它的主要任务是清洗、验证和存储数据。

7.Downloader Middlewares。下载器中间件,位于引擎和下载器之间的钩子框架,主要处理引擎与下载器之间的请求及响应。

8.Spider Middlewares。蜘蛛中间件,位于引擎和蜘蛛之间的钩子框架,主要处理蜘蛛输入的响应和输出的结果及新的请求。

数据的流动

Scrapy Engine(引擎):负责Spider、ltemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器):负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，
Spider(爬虫)︰负责处理所有Responses,从中分析提取数据，获取ltem字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，
ltem Pipeline(管道):负责处理Spider中获取到的ltem，并进行进行后期处理(详细分析、过滤、存储等）的地方.
Downloader Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests)

到此这篇关于Python爬虫基础之简单说一下scrapy的框架结构的文章就介绍到这了,更多相关scrapy的框架结构内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python爬虫基础讲解之scrapy框架
python爬虫scrapy框架的梨视频案例解析
简述python Scrapy框架
Python Scrapy框架第一个入门程序示例

上一篇：Python爬虫基础之初次使用scrapy爬虫实例
下一篇：Python实战之OpenCV实现猫脸检测

相关文章

Python爬虫基础之简单说一下scrapy的框架结构

scrapy 框架结构思考 scrapy 为什么是框架而不是库 scrapy是如何工作的项目结构在开始爬取之前，必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令: 注意:创建项Python,爬虫,基础,之简,单说,...

如何购买正规物联卡,怎么选择物联卡代理公司

目前，物联网卡的销售渠道有很多，线上的，线下人，据小编调查，目前大部分人购买...

使用Ajax实现简单的带百分比进度条实例

需求：当进行文件长传保存等操作时，能在页面显示一个带百分比的进度条，给用户一...

智能客服系统基本功能介绍

智能客服系统是一种能够通过与用户的交互实现智能客服的系统。智能客服系统通过对...

安庆电话机器人（安庆电话机器人系统）

本文目录一览：1、能率燃气灶售后服务电话(全国统一)24小时人工客服2、电话是那年创...

昆明企业电销机器人价格（电销机器人厂家）

本文目录一览： 1、电销机器人到底多少钱？价格来去怎么这么大？2、电销机器人一年...

Win8.1下IE11浏览器如何添加网址收藏常用的网站

保存常用的网站是多数人使用浏览器的习惯，这个行为被称之为添加收藏或添加书签。...

广州防封电销系统如何搭建

电销系统专门用的线路市场上有很多正规的线路都是有全地域的线路，如果公司业务对...

电销话术通关评分卡（电销话术分析）

本文目录一览：1、电销的销售话术技巧2、做电销的话术有哪些?3、史上最齐全的电销技...

第三方网站在线客服系统，多渠道接入

随着电子商务的快速发展，在线客服系统在各行业的应用也越来越广泛。通过在线客服...

商丘400申请：走进黄河文化之城的机遇与挑战-商丘400申

商丘作为黄河文化的重要代表之一，历史悠久、文化灿烂。而商丘400申请，则是将这座...

湖州餐饮加盟电话销售系统办理服务商,外呼系统-本周热

湖州餐饮加盟电话销售系统办理服务商,外呼系统跟进比较困难，员工呼出电话之后信息...

MySQL索引是啥?不懂就问

目录概述从二叉树到B+树聚集索引非聚集索引联合索引和覆盖索引 B+树索引VS哈希索...

电销机器人电销机器人类云呼_电话机器人

如果客户在外呼过程中愿意被转入人工服务，说明他对产品的意向比较正向的。如果能...

无锡知识产权外呼系统办理商家,电话营销系统-详情报价

无锡知识产权外呼系统办理商家,电话营销系统全部振铃、轮番振、近接通、少接通、随...

长春呼叫系统的价格

汇港通自主研发基于大数据、云计算的产品。帮助中小企业提率，提升管理，优化运维...

Python爬虫基础之简单说一下scrapy的框架结构

scrapy 框架结构思考 scrapy 为什么是框架而不是库 scrapy是如何工作的项目结构在开始爬取之前，必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令: 注意:创建项Python,爬虫,基础,之简,单说,...

© 2016-2020 巨人网络通讯版权所有

《增值电信业务经营许可证》苏ICP备15040257号-8

Python爬虫基础之简单说一下scrapy的框架结构 Python,爬虫,基础,之简,单说,