Python爬虫部分开篇概念讲解-巨人网络通讯

开发环境介绍：

window10 操作系统
Python解释器3.8
集成开发环境pycharm

数据的来源及作用

数据的来源有哪些？

用户产生的数据：百度指数
政府统计的数据：政府数据
数据管理公司：聚合数据
自己爬取的数据：爬取网站上的某些视频

数据的作用

数据分析
智能产品的练习数据
其他（比如买卖）

爬虫的相关概念

a) 爬虫的概念

爬虫就是应用程序，从网上下载各种各样的资源。
换句话说就是使用编程语言编写一个用于爬虫web或者app的数据应用程序。
怎么爬取数据呢？

找到要爬取的目标网站，发起请求
分析url是如何变化的和提取有用的url
提取有用的信息

爬虫什么数据都可以爬吗？
当然不能，需要遵守一定的规则和协议

可以看一下京东的：

有些是允许的，有些是不允许的。

b) 爬虫分类

通用爬虫

百度等搜索引擎，从一些初始的URL扩展到整个网站，主要为门户站点搜索引起和大型网站服务采集数据

聚焦网站爬虫

主题网络爬虫，选择性爬取根据需求相关的页面的网络爬虫

增量式网络爬虫

对已经下载的页面采取更新知识和只爬新产生的。

c) 爬虫的原理

通用的爬虫原理

聚焦网络爬虫原理

d) 各种语言写爬虫的对比

php对多线程，异步支持不是很友好，并发能力弱。速度和效率低
java：代码量大，而且重构成本比较高，任何改动都会导致大量的改动，而爬虫需要经常修改采集代码
Python：开发效率高，代码简洁，支持的模块多，和HTTP请求和html解析模块非常丰富，还有scrapy,scrapy-redis框架，让开发爬虫更简单。

到此这篇关于Python爬虫部分开篇示例讲解的文章就介绍到这了,更多相关Python爬虫部分开篇示例讲解内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python爬虫之爬取2020女团选秀数据
python爬虫之教你如何爬取地理数据
python 用递归实现通用爬虫解析器
Python爬虫之教你利用Scrapy爬取图片
基于python分布式爬虫并解决假死的问题
python PyQt5 爬虫实现代码
用python爬虫爬取CSDN博主信息
利用Python网络爬虫爬取各大音乐评论的代码
python爬虫之你好,李焕英电影票房数据分析

全部栏目

目录

开发环境介绍：

数据的来源及作用

数据的作用

爬虫的相关概念

a) 爬虫的概念

b) 爬虫分类

c) 爬虫的原理

d) 各种语言写爬虫的对比

全 部 栏 目

目录

开发环境介绍：

数据的来源及作用

数据的作用

爬虫的相关概念

a) 爬虫的概念

b) 爬虫分类

c) 爬虫的原理

d) 各种语言写爬虫的对比

全部栏目