• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    python简单爬虫--get方式详解

    简单爬虫可以划分为get、post格式。其中,get是单方面的获取资源,而post存在交互,如翻译中需要文字输入。本文主要描述简单的get爬虫。

    环境准备

    安装第三方库

    pip install requests
    pip install bs4
    pip install lxml
    

    进行爬虫

    1.获取网页数据。

    import requests
    from bs4 import BeautifulSoup
    url = "https://cn.bing.com/search?q=爬虫CSDNqs=nform=QBREsp=-1pq=爬虫csdnsc=5-6sk=cvid=0B13B88D8F444A0182A4A6C36E463179/"
    response = requests.get(self.url)
    

    2.解析网页数据

    soup = BeautifulSoup(response.text, 'lxml')
    

    3.选取目标数据。此处key 依据源代码目标标题的位置确定。首先进入开发者模式,后查看目标在html中的位置,右击选择“复制selector”,见下图。

    key = "#b_results > li > div.b_title > h2 > a"
    soup.select(key)
    

    4.清洗数据

    result = {}
    for i, item in enumerate(data):
         result.update({
             f'title_{i}': item.get_text(),
             f'url_{i}': item.get('href')
         })
     print(result)
    

    参考

    链接:https://www.jb51.net/article/152560.htm

    总结

    本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注脚本之家的更多内容!

    您可能感兴趣的文章:
    • Python大数据之网络爬虫的post请求、get请求区别实例分析
    • python2与python3爬虫中get与post对比解析
    • python爬虫 基于requests模块的get请求实现详解
    • python爬虫 基于requests模块发起ajax的get请求实现解析
    • python爬虫中get和post方法介绍以及cookie作用
    上一篇:python三种数据结构及13种创建方法总结
    下一篇:python读写excel数据--pandas详解
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    python简单爬虫--get方式详解 python,简单,爬虫,--get,方式,