• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    超简单的scrapy实现ip动态代理与更换ip的方法实现

    简单实现ip代理,为了不卖广告,
    请自行准备一个ip代理的平台
    例如我用的这个平台,每次提取10个ip


    从上面可以看到数据格式是文本,换行是\r\n,访问链接之后大概就是长这样的,scrapy里面的ip需要加上前缀http://
    例如:http://117.95.41.21:34854

    OK,那现在已经准备好了ip了,先给你们屡一下思路。

    ip池和计数器放在setting文件

    第一次请求的时候要填满ip池,所以在爬虫文件的start_requests函数下手

    更换ip的地方是middlewares的下载器中间件类的process_request函数,因为每个请求发起前都会经过这个函数

    首先是setting文件,其实就是加两句代码

    count = {'count': 0}
    ipPool = []

    还有就是开启下载器中间件,注意是下面那个download的类,中间件的process_request函数的时候才能生效

    下载器中间件的process_request函数,进行ip代理和固定次数更还ip代理池

    	# 记得导包
    	from 你的项目.settings import ipPool, count
    	import random
    	import requests
    	
      def process_request(self, request, spider):
        # 随机选中一个ip
        ip = random.choice(ipPool)
        print('当前ip', ip, '-----', count['count'])
        # 更换request的ip----------这句是重点
        request.meta['proxy'] = ip
        # 如果循环大于某个值,就清理ip池,更换ip的内容
        if count['count'] > 50:
          print('-------------切换ip------------------')
          count['count'] = 0
          ipPool.clear()
          ips = requests.get('你的ip获取的地址')
          for ip in ips.text.split('\r\n'):
            ipPool.append('http://' + ip)
        # 每次访问,计数器+1
        count['count'] += 1
        return None
    

    最后就是爬虫文件的start_requests函数,就是第一次发请求前要先填满ip池的ip

    	# 记得导包
    	from 你的项目.settings import ipPool
    	import random
    	import requests
    	
      def start_requests(self):
        # 第一次请求发起前先填充一下ip池
        ips = requests.get('你的ip获取的地址')
        for ip in ips.text.split('\r\n'):
          ipPool.append('http://' + ip)
    

    简单的ip代理以及固定次数就更换ip池就完成了

    到此这篇关于超简单的scrapy实现ip动态代理与更换ip的方法实现的文章就介绍到这了,更多相关scrapy ip动态代理与更换ip内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

    您可能感兴趣的文章:
    • 详解基于Scrapy的IP代理池搭建
    • 使用scrapy ImagesPipeline爬取图片资源的示例代码
    • Scrapy 配置动态代理IP的实现
    • python3 Scrapy爬虫框架ip代理配置的方法
    • Python:Scrapy框架中Item Pipeline组件使用详解
    • scrapy自定义pipeline类实现将采集数据保存到mongodb的方法
    上一篇:配置python连接oracle读取excel数据写入数据库的操作流程
    下一篇:python-3.5.3安装及一些库安装教程详解
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    超简单的scrapy实现ip动态代理与更换ip的方法实现 超,简单,的,scrapy,实现,动态,