Python用requests库爬取返回为空的解决办法-巨人网络通讯

企业400电话

微网小程序

AI电话机器人

电商代运营

全部栏目

企业400电话网络优化推广 AI电话机器人呼叫中心网站建设商标✡知产微网小程序电商运营彩铃•短信增值拓展业务

Python用requests库爬取返回为空的解决办法

首先介紹一下我們用360搜索派取城市排名前20。
我们爬取的网址：https://baike.so.com/doc/24368318-25185095.html

我们要爬取的内容：

html字段：

robots协议：

现在我们开始用python IDLE 爬取

import requests
r = requests.get("https://baike.so.com/doc/24368318-25185095.html")
r.status_code
r.text

结果分析，我们可以成功访问到该网页，但是得不到网页的结果。被360搜索识别，我们将headers修改。

输出有个小插曲，网页内容很多，我是想将前500个字符输出，第一次格式错了

import requests
headers = {
  'Cookie':'OCSSID=4df0bjva6j7ejussu8al3eqo03',
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
         '(KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}
r = requests.get("https://baike.so.com/doc/24368318-25185095.html"， headers = headers)
r.status_code
r.text

接着我们对需要的内容进行爬取，用(.find)方法找到我们内容位置，用(.children)下行遍历的方法对内容进行爬取，用(isinstance)方法对内容进行筛选：

import requests
from bs4 import BeautifulSoup
import bs4
headers = {
  'Cookie':'OCSSID=4df0bjva6j7ejussu8al3eqo03',
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
         '(KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}
r = requests.get("https://baike.so.com/doc/24368318-25185095.html", headers = headers)
r.status_code
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text, "html.parser")
for tr in soup.find('tbody').children:
	if isinstance(tr, bs4.element.Tag):
		tds = tr('td')
		print([tds[0].string, tds[1].string, tds[2].string])

得到结果如下：

修改输出的数目，我们用Clist列表来存取所有城市的排名，将前20个输出代码如下：

import requests
from bs4 import BeautifulSoup
import bs4
Clist = list() #存所有城市的列表
headers = {
  'Cookie':'OCSSID=4df0bjva6j7ejussu8al3eqo03',
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
         '(KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}
r = requests.get("https://baike.so.com/doc/24368318-25185095.html", headers = headers)
r.encoding = r.apparent_encoding #将html的编码解码为utf-8格式
soup = BeautifulSoup(r.text, "html.parser") #重新排版
for tr in soup.find('tbody').children:   #将tbody标签的子列全部读取
	if isinstance(tr, bs4.element.Tag):  #筛选tb列表，将有内容的筛选出啦
	  tds = tr('td')
	  Clist.append([tds[0].string, tds[1].string, tds[2].string])
for i in range(21):
  print(Clist[i])

最终结果：

到此这篇关于Python用requests库爬取返回为空的解决办法的文章就介绍到这了,更多相关Python requests返回为空内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python requests库参数提交的注意事项总结
详解python requests中的post请求的参数问题
python requests完成接口文件上传的案例
python爬取豆瓣电影排行榜(requests)的示例代码
requests在python中发送请求的实例讲解
python 实现Requests发送带cookies的请求
python requests库的使用
Python+unittest+requests+excel实现接口自动化测试框架
python爬虫利器之requests库的用法(超全面的爬取网页案例)
python爬虫 requests-html的使用
python requests模块的使用示例

上一篇：python利用proxybroker构建爬虫免费IP代理池的实现
下一篇：python爬虫利用代理池更换IP的方法步骤

相关文章

Python用requests库爬取返回为空的解决办法

首先介紹一下我們用360搜索派取城市排名前20。我们爬取的网址：https://baike.so.com/doc/24368318-25185095.html 我们要爬取的内容： html字段： robots协议：现在我们开始用python IDLE 爬取 importPython,用,requests,库爬,取,...

东莞400电话收费企业进行400电话办理的时候如何选择号码

近年来，400电话已经成为企业发展的动力。高质量的电话号码就像企业亲手递出并输入...

网络名片怎么制作

智能名片打造个人网上的品牌形象，个人名片、移动官网、人脉分销商城、利用图片、...

辽宁电话机器人如何（电话机器人官网）

本篇文章给大家谈谈辽宁电话机器人如何，以及电话机器人官网对应的知识点，希望对...

盐城自动外呼系统怎么样（自动外呼软件效果怎么样?）

本篇文章给大家谈谈盐城自动外呼系统怎么样，以及自动外呼软件效果怎么样?对应的知...

外呼系统都需要申请线路吗（外呼系统搭建）

今日给各位同享外呼体系都需求请求线路吗的常识，其间也会对外呼体系建立进行解说...

400电话显示归属地吗福州联通400电话办理资费

400电话由三大运营商推出，每个运营商的数量不同。中国联通400电话号码段为4000和4...

智能语音机器人推动呼叫中心行业发展

2019年12月，亚航关闭语音呼叫中心，全力打造聊天机器人。亚航的首席客户官就认为，...

400客服电话怎么申请办理400电话费用多少

(400客服电话怎么申请)(办理400电话费用多少)以下内容由巨人小编整理发布。申请400电...

南京公司外呼系统运营商的简单介绍

本文目录一览： 1、外呼体系哪家公司做得好？？？2、简信CRM：南京CRM？3、求解，现在...

南宁人工外呼系统哪家好（广州外呼系统哪里有）

今天给各位分享南宁人工外呼系统哪家好的知识，其中也会对广州外呼系统哪里有进行...

苏州防封电销卡代理

苏州防封电销卡代理,怎么代理苏州防封电销卡,苏州防封电销卡代理加盟办理全国各地...

电销卡是不是双向付费（电销卡有用吗）

本文目录一览：1、什么是销售,销售用的电销卡是什么?2、想买个电销卡?3、电销卡是什...

电销手机卡如何防止被封（电销怎么避免封卡）

本文目录一览：1、电销手机号防封号攻略2、电销封号封卡有什么解决方案?3、电销卡如...

品牌文化是品牌诞生的源泉

纵观世界，品牌的诞生取决于企业家的文化素养与文化观念。名企因名品而名，企业家...

400有什么优点？

400有什么优点？现在只要是发展稍具规模的企业基本上都会购买一个400电话号码作为企...

Python用requests库爬取返回为空的解决办法

首先介紹一下我們用360搜索派取城市排名前20。我们爬取的网址：https://baike.so.com/doc/24368318-25185095.html 我们要爬取的内容： html字段： robots协议：现在我们开始用python IDLE 爬取 importPython,用,requests,库爬,取,...

© 2016-2020 巨人网络通讯版权所有

《增值电信业务经营许可证》苏ICP备15040257号-8

Python用requests库爬取返回为空的解决办法 Python,用,requests,库爬,取,