python爬虫scrapy基本使用超详细教程-巨人网络通讯

python爬虫scrapy基本使用超详细教程

一、介绍

官方文档：中文2.3版本

下面这张图大家应该很熟悉，很多有关scrapy框架的介绍中都会出现这张图，感兴趣的再去查询相关资料，当然学会使用scrapy才是最主要的。

二、基本使用

2.1 环境安装

1.linux和mac操作系统：

pip install scrapy

2.windows系统：

先安装wheel：pip install wheel
下载twisted：下载地址
安装twisted：pip install Twisted‑17.1.0‑cp36‑cp36m‑win_amd64.whl（记得带后缀）
pip install pywin32
pip install scrapy

3.Anaconda(推荐)

在我一开始学python使用的就是python3.8，在安装各种库的时候，总会有各种报错，真的有点让人奔溃。Anaconda在安装过程中就会安装一些常用的库，其次，当我们想要安装其他库时也很方便。当然大家也可以选择安装其他的一些软件，

2.2 scrapy使用流程

这里默认大家已经安装好scrapy库，大家要记得要在命令行里输入以下命令啊。(我使用的anaconda的命令行)

创建工程

scrapy startproject projectName

进入工程目录：这里一定要进入到刚才创建好的目录中

cd projectName

创建爬虫文件：创建的爬虫文件会出现在之前创建好的spiders文件夹下

scrapy genspider spiderName www.xxx.com

编写相关代码

执行爬虫文件

scrapy crawl spiderName

2.3 文件解析

import scrapy

class HelloSpider(scrapy.Spider):
 name = 'hello' # 爬虫名称

 # 允许的域名:限定start_urls列表当中哪些url可以进行请求的发送
 # 通常情况下我们不会使用
 # allowed_domains = ['www.baidu.com'] 

 # 起始的url列表:scrapy会自动对start_urls列表中的每一个url发起请求
 # 我们可以手动添加我们需要访问的url
 start_urls = ['https://www.baidu.com/','https://www.csdn.net/']

 def parse(self, response): # 当scrapy自动向start_urls中的每一个url发起请求后，会将响应对象保存在response对象中
 # 代码一般是在parse方法中写
 print("response:",response)

2.4 settings.py一些常见的设置

相当于requests中的headers参数中的User-Agent

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36 Edg/88.0.705.68'

可以忽略或者不遵守robots协议

ROBOTSTXT_OBEY = False

只有程序出现错误的情况下，才显示日志文件，程序正常执行时只会输出我们想要的结果

LOG_LEVEL='ERROR' == scrapy crawl spiderName --nolog
//二者是等价的，当然还是推荐使用前者

未加LOG_LEVEL='ERROR'

加LOG_LEVEL='ERROR'之后

scrapy 爬取文件保存为CSV文件中文乱码的解决办法

//下面的设置可能会导致繁体出现,可以逐个试一下
FEED_EXPORT_ENCODING = "gb18030"
FEED_EXPORT_ENCODING = "utf-8"
FEED_EXPORT_ENCODING = "gbk"

三、实例

3.1 实例要求

目的：爬取百度网页的百度热榜

3.2 实例代码

实例代码

3.3 输出结果

结果

到此这篇关于python爬虫scrapy基本使用超详细教程的文章就介绍到这了,更多相关python爬虫scrapy使用内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python爬虫基础讲解之scrapy框架
Python爬虫实战之使用Scrapy爬取豆瓣图片
Python爬虫框架-scrapy的使用
python scrapy项目下spiders内多个爬虫同时运行的实现
Python爬虫之教你利用Scrapy爬取图片
python爬虫scrapy框架之增量式爬虫的示例代码
一文读懂python Scrapy爬虫框架
Python爬虫之Scrapy环境搭建案例教程

上一篇：解决pip安装tensorflow中出现的no module named tensorflow.python 问题方法
下一篇：安装不同版本的tensorflow与models方法实现

python爬虫scrapy基本使用超详细教程

目录一、介绍二、基本使用 2.1 环境安装 2.2 scrapy使用流程 2.3 文件解析 2.4 settings.py一些常见的设置三、实例 3.1 实例要求 3.2 实例代码 3.3 输出结果一、介绍官方文档：中文2.3版本python,爬虫,scrapy,基本,使用,...

南京公司外呼系统运营商的简单介绍

本文目录一览： 1、外呼体系哪家公司做得好？？？2、简信CRM：南京CRM？3、求解，现在...

智能语音机器人推动呼叫中心行业发展

2019年12月，亚航关闭语音呼叫中心，全力打造聊天机器人。亚航的首席客户官就认为，...

电销卡是不是双向付费（电销卡有用吗）

本文目录一览：1、什么是销售,销售用的电销卡是什么?2、想买个电销卡?3、电销卡是什...

品牌文化是品牌诞生的源泉

纵观世界，品牌的诞生取决于企业家的文化素养与文化观念。名企因名品而名，企业家...

辽宁电话机器人如何（电话机器人官网）

本篇文章给大家谈谈辽宁电话机器人如何，以及电话机器人官网对应的知识点，希望对...

400有什么优点？

400有什么优点？现在只要是发展稍具规模的企业基本上都会购买一个400电话号码作为企...

盐城自动外呼系统怎么样（自动外呼软件效果怎么样?）

本篇文章给大家谈谈盐城自动外呼系统怎么样，以及自动外呼软件效果怎么样?对应的知...

南宁人工外呼系统哪家好（广州外呼系统哪里有）

今天给各位分享南宁人工外呼系统哪家好的知识，其中也会对广州外呼系统哪里有进行...

苏州防封电销卡代理

苏州防封电销卡代理,怎么代理苏州防封电销卡,苏州防封电销卡代理加盟办理全国各地...

电销手机卡如何防止被封（电销怎么避免封卡）

本文目录一览：1、电销手机号防封号攻略2、电销封号封卡有什么解决方案?3、电销卡如...

400电话显示归属地吗福州联通400电话办理资费

400电话由三大运营商推出，每个运营商的数量不同。中国联通400电话号码段为4000和4...

东莞400电话收费企业进行400电话办理的时候如何选择号码

近年来，400电话已经成为企业发展的动力。高质量的电话号码就像企业亲手递出并输入...

外呼系统都需要申请线路吗（外呼系统搭建）

今日给各位同享外呼体系都需求请求线路吗的常识，其间也会对外呼体系建立进行解说...

400客服电话怎么申请办理400电话费用多少

(400客服电话怎么申请)(办理400电话费用多少)以下内容由巨人小编整理发布。申请400电...

网络名片怎么制作

智能名片打造个人网上的品牌形象，个人名片、移动官网、人脉分销商城、利用图片、...

python爬虫scrapy基本使用超详细教程

全 部 栏 目

目录

一、介绍

二、基本使用

2.1 环境安装

2.2 scrapy使用流程

2.3 文件解析

2.4 settings.py一些常见的设置

三、实例

3.1 实例要求

3.2 实例代码

3.3 输出结果

全部栏目