Python爬虫基础之爬虫的分类知识总结-巨人网络通讯

企业400电话

微网小程序

AI电话机器人

电商代运营

全部栏目

企业400电话网络优化推广 AI电话机器人呼叫中心网站建设商标✡知产微网小程序电商运营彩铃•短信增值拓展业务

Python爬虫基础之爬虫的分类知识总结

目录

一、通用爬虫
二、搜索引擎的局限性
三、Robots协议
四、请求与相应

一、通用爬虫

通用网络爬虫是搜索引擎抓取系统(Baidu、Google、Sogou等)的一个重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。为搜索引擎提供搜索支持。

第一步

搜索引擎去成千上万个网站抓取数据。

第二步

搜索引擎通过爬虫爬取到的网页，将数据存入原始页面数据库(也就是文档库)。其中的页面数据与用户浏览器得到的HTML是完全—样的。

第三步

搜索引擎将爬虫抓取回来的页面，进行各种步骤的预处理:中文分词，消除噪音，索引处理。。。
搜索引擎在对信息进行组织和处理后，为用户提供关键字检索服务，将用户检索相关的信息展示给用户。展示的时候会进行排名。

二、搜索引擎的局限性

搜索引擎抓取的是整个网页，不是具体详细的信息。
搜索引擎无法提供针对具体某个客户需求的搜索结果。

聚焦爬虫

针对通用爬虫的这些情况，聚焦爬虫技术得以广泛使用。聚焦爬虫，是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页数据。

三、Robots协议

robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。——百度百科

Robots协议也叫爬虫协议、机器人协议等，全称是“网络爬虫排除标准”(Robots ExclusionProtocol)，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，例如:

淘宝: https://www.taobao.com/robots.txt
百度: https://www.baidu.com/robots.txt

四、请求与相应

网络通信由两部分组成:客户端请求消息与服务器响应消息

浏览器发送HTTP请求的过程：

1.当我们在浏览器输入URL https://www.baidu.com的时候，浏览器发送一个Request请求去
获取 https://www.baidu.com 的html文件，服务器把Response文件对象发送回给浏览器。

2.浏览器分析Response中的HTML，发现其中引用了很多其他文件，比如Images文件，CSS文件，JS文件。浏览器会自动再次发送Request去获取图片，CSS文件，或者JS文件。

3.当所有的文件都下载成功后，网页会根据HTML语法结构，完整的显示出来了。

实际上我们通过学习爬虫技术爬取数据，也是向服务器请求数据,获取服务器响应数据的过程。

到此这篇关于Python爬虫基础之爬虫的分类知识总结的文章就介绍到这了,更多相关Python爬虫的分类内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python爬虫数据的分类及json数据使用小结
python爬虫scrapy图书分类实例讲解
Python爬虫实现的根据分类爬取豆瓣电影信息功能示例
Python异步爬虫实现原理与知识总结
Python爬虫之线程池的使用
python基础之爬虫入门
python爬虫请求库httpx和parsel解析库的使用测评
Python爬虫之爬取最新更新的小说网站
用Python爬虫破解滑动验证码的案例解析

上一篇：pytorch中的numel函数用法说明
下一篇：Python机器学习算法之决策树算法的实现与优缺点

相关文章

Python爬虫基础之爬虫的分类知识总结

目录一、通用爬虫二、搜索引擎的局限性三、Robots协议四、请求与相应一、通用爬虫通用网络爬虫是搜索引擎抓取系统(Baidu、Google、Sogou等)的一个重要组成部分。主要目的是将互联Python,爬虫,基础,之,的,分类,...

短视频代运营公司收费报价表明细你是否了解

现阶段市场上面有许多的短视频代运营公司，人们在选择代运营公司的时候，都会关注...

天津智能电销卡办理办理服务商-诚信服务

天津智能电销卡办理办理服务商达到筛选意向客户、锁定目标客户、准确客户分类的营...

长沙电销专用卡（长沙电销卡办理）

本文目录一览：1、电销卡怎么办理2、求告知现在那种手机卡适合电话营销3、专门打电...

webcolct.exe - webcolct 是什么进程

进程文件： webcolct or webcolct.exe 进程名称： Webcolct 进程类别：存在安全风险的进程英文...

厦门联通38套餐电销卡（38元联通卡套餐介绍）

本文目录一览：1、电销卡在哪里办理2、电销卡是什么?3、电销卡有哪些优势?4、电销卡...

共祝华诞普强AI能力平台正式上线

你好，普强我在随着人机语音交互技术逐渐成熟，智能语音客服、智能车载语音助手...

400电话办理满意度调查有更多提高

每一个企业要想发展更好，都应该重视客服方面关注，如果客服方面无法得到要求，那...

电销外呼系统号码从哪来（电销外呼系统违法吗）

本篇文章给大家谈谈电销外呼系统号码从哪来，以及电销外呼系统违法吗对应的知识点...

金华市稳定高频电话卡便宜

深圳移动联合华为、移动研究院，对现网上干扰问题进行稳定高频电话卡便宜深入分析...

虽然iPhone 8首发遇冷，但在体验店大家还是很热情的嘛

iPhone 8上市接近一周，直营店门可罗雀的凄凉场景依然历历在目。大家纷纷唱衰iPhone ...

400呼叫中心解决方案

400呼叫中心解决方案是企业业务发展的核心基础，也是企业业务开展的有效工具，同时...

“浙江服务”，转型新动力

服务外包，这个很多人已经不陌生的词汇，第一次成为了我省五年规划的主角。在日前...

电话外呼系统是如何收费（外呼系统多少钱）

本文目录一览： 1、外呼琐细一个几何钱，有哪些听命？ 2、外呼琐细安装需求哪些用度...

微信定位找不到我公司的地址，微信定位找不到我的店铺

为什么微信定位找不到自己公司位置？你可以直接在各大地图软件中提交你公司的地址...

承担违反著作权合同民事责任的条件

著作权合同当事人承担违约责任，除了有损害事实之外，还应当同时具备以—F两个条件...

Python爬虫基础之爬虫的分类知识总结

目录一、通用爬虫二、搜索引擎的局限性三、Robots协议四、请求与相应一、通用爬虫通用网络爬虫是搜索引擎抓取系统(Baidu、Google、Sogou等)的一个重要组成部分。主要目的是将互联Python,爬虫,基础,之,的,分类,...

© 2016-2020 巨人网络通讯版权所有

《增值电信业务经营许可证》苏ICP备15040257号-8

Python爬虫基础之爬虫的分类知识总结 Python,爬虫,基础,之,的,分类,