python爬虫之异常捕获及标签过滤详解-巨人网络通讯

python爬虫之异常捕获及标签过滤详解

增加异常捕获，更容易现问题的解决方向

import ssl
import urllib.request
from bs4 import BeautifulSoup
from urllib.error import HTTPError, URLError
 
 
def get_data(url):
    headers = {"user-agent":
                   "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
               }
    ssl._create_default_https_context = ssl._create_unverified_context
 
    """
    urlopen处增加两个异常捕获：
            1、如果页面出现错误或者服务器不存在时，会抛HTTP错误代码
            2、如果url写错了或者是链接打不开时，会抛URLError错误
    """
    try:
        url_obj = urllib.request.Request(url, headers=headers)
        response = urllib.request.urlopen(url_obj)
        html = response.read().decode('utf8')
    except (HTTPError, URLError)as e:
        raise e
 
    """
    BeautifulSoup处增加异常捕获是因为BeautifulSoup对象中有时候标签实际不存在时，会返回None值；
    因为不知道，所以调用了就会导致抛出AttributeError: 'NoneType' object has no xxxxxxx。
    """
    try:
        bs = BeautifulSoup(html, "html.parser")
        results = bs.body 
    except AttributeError as e:
        return None
 
    return results
 
 
if __name__ == '__main__':
    print(get_data("https://movie.douban.com/chart"))

解析html，更好的实现数据展示效果

get_text()：获取文本信息

# 此处代码同上面打开url代码一致，故此处省略......
 
html = response.read().decode('utf8')
bs = BeautifulSoup(html, "html.parser")
data = bs.find('span', {'class': 'pl'})
print(f'电影评价数：{data}')
print(f'电影评价数：{data.get_text()}')

运行后的结果显示如下：

电影评价数：span class="pl">(38054人评价)/span>
电影评价数：(38054人评价)

find() 方法是过滤HTML标签，查找需要的单个标签

实际find方法封装是调用了正则find_all方法，把find_all中的limt参数传1，获取单个标签

1.name：可直接理解为标签元素

2.attrs：字典格式，放属性和属性值 {"class": "indent"}

3.recursive：递归参数，布尔值，为真时递归查询子标签

4.text：标签的文本内容匹配 , 是标签的文本，标签的文本

find_all() 方法是过滤HTML标签，查找需要的标签组

使用方法适合find一样的，无非就是多了个limit参数（筛选数据)

必须注意的小知识点：

#   下面两种写法，实际是一样的功能，都是查询id为text的属性值
bs.find_all(id="text")
bs.find_all(' ', {"id": "text"})

#   如果是class的就不能class="x x x"了，因为class是python中类的关键字
bs.find_all(class_="text")
bs.find_all(' ', {"class": "text"})

到此这篇关于python爬虫之异常捕获及标签过滤详解的文章就介绍到这了,更多相关python异常捕获及标签过滤内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python爬虫之selenium库的安装及使用教程
Python中selenium库的用法详解
Python Selenium库的基本使用教程
Python爬虫之Selenium库的使用方法
python中selenium库的基本使用详解
Python中Selenium库使用教程详解
Requests什么的通通爬不了的Python超强反爬虫方案！
Python爬虫之获取心知天气API实时天气数据并弹窗提醒
快速搭建python爬虫管理平台
Python爬虫基础之selenium库的用法总结

上一篇：python使用tkinter实现透明窗体
下一篇：Keras 如何修改图片通道的顺序

python爬虫之异常捕获及标签过滤详解

增加异常捕获，更容易现问题的解决方向 import sslimport urllib.requestfrom bs4 import BeautifulSoupfrom urllib.error import HTTPError, URLError def get_data(url): headers = {\"user-agent\": \"Mozilla/5.0 (Macintosh; Intel Mac Opython,爬虫,之,异常,捕获,...

金华市稳定高频电话卡便宜

深圳移动联合华为、移动研究院，对现网上干扰问题进行稳定高频电话卡便宜深入分析...

400呼叫中心解决方案

400呼叫中心解决方案是企业业务发展的核心基础，也是企业业务开展的有效工具，同时...

共祝华诞普强AI能力平台正式上线

你好，普强我在随着人机语音交互技术逐渐成熟，智能语音客服、智能车载语音助手...

长沙电销专用卡（长沙电销卡办理）

本文目录一览：1、电销卡怎么办理2、求告知现在那种手机卡适合电话营销3、专门打电...

承担违反著作权合同民事责任的条件

著作权合同当事人承担违约责任，除了有损害事实之外，还应当同时具备以—F两个条件...

厦门联通38套餐电销卡（38元联通卡套餐介绍）

本文目录一览：1、电销卡在哪里办理2、电销卡是什么?3、电销卡有哪些优势?4、电销卡...

“浙江服务”，转型新动力

服务外包，这个很多人已经不陌生的词汇，第一次成为了我省五年规划的主角。在日前...

电销外呼系统号码从哪来（电销外呼系统违法吗）

本篇文章给大家谈谈电销外呼系统号码从哪来，以及电销外呼系统违法吗对应的知识点...

短视频代运营公司收费报价表明细你是否了解

现阶段市场上面有许多的短视频代运营公司，人们在选择代运营公司的时候，都会关注...

微信定位找不到我公司的地址，微信定位找不到我的店铺

为什么微信定位找不到自己公司位置？你可以直接在各大地图软件中提交你公司的地址...

电话外呼系统是如何收费（外呼系统多少钱）

本文目录一览： 1、外呼琐细一个几何钱，有哪些听命？ 2、外呼琐细安装需求哪些用度...

虽然iPhone 8首发遇冷，但在体验店大家还是很热情的嘛

iPhone 8上市接近一周，直营店门可罗雀的凄凉场景依然历历在目。大家纷纷唱衰iPhone ...

webcolct.exe - webcolct 是什么进程

进程文件： webcolct or webcolct.exe 进程名称： Webcolct 进程类别：存在安全风险的进程英文...

400电话办理满意度调查有更多提高

每一个企业要想发展更好，都应该重视客服方面关注，如果客服方面无法得到要求，那...

天津智能电销卡办理办理服务商-诚信服务

天津智能电销卡办理办理服务商达到筛选意向客户、锁定目标客户、准确客户分类的营...

python爬虫之异常捕获及标签过滤详解

全 部 栏 目

全部栏目