• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    scrapy-splash简单使用详解

    1.scrapy_splash是scrapy的一个组件

    scrapy_splash加载js数据基于Splash来实现的

    Splash是一个Javascrapy渲染服务,它是一个实现HTTP API的轻量级浏览器,Splash是用Python和Lua语言实现的,基于Twisted和QT等模块构建

    使用scrapy-splash最终拿到的response相当于是在浏览器全部渲染完成以后的网页源代码

    2.scrapy_splash的作用

    scrpay_splash能够模拟浏览器加载js,并返回js运行后的数据

    3.scrapy_splash的环境安装

    3.1 使用splash的docker镜像

    docker info 查看docker信息

    docker images  查看所有镜像

    docker pull scrapinghub/splash  安装scrapinghub/splash

    docker run -p 8050:8050 scrapinghub/splash   指定8050端口运行

    3.2.pip install scrapy-splash

    3.3.scrapy 配置:

      SPLASH_URL = 'http://localhost:8050'
      DOWNLOADER_MIDDLEWARES = {
        'scrapy_splash.SplashCookiesMiddleware': 723,
        'scrapy_splash.SplashMiddleware': 725,
        'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
      }
      SPIDER_MIDDLEWARES = {
        'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
      }
      DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
      HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'
    

    3.4.scrapy 使用

    from scrapy_splash import SplashRequest
    yield SplashRequest(self.start_urls[0], callback=self.parse, args={'wait': 0.5})
    

    4.测试代码:

    import datetime
    import os
     
    import scrapy
    from scrapy_splash import SplashRequest
     
    from ..settings import LOG_DIR
     
     
    class SplashSpider(scrapy.Spider):
      name = 'splash'
      allowed_domains = ['biqugedu.com']
      start_urls = ['http://www.biqugedu.com/0_25/']
     
      custom_settings = {
        'LOG_FILE': os.path.join(LOG_DIR, '%s_%s.log' % (name, datetime.date.today().strftime('%Y-%m-%d'))),
        'LOG_LEVEL': 'INFO',
        'CONCURRENT_REQUESTS': 8,
        'AUTOTHROTTLE_ENABLED': True,
        'AUTOTHROTTLE_TARGET_CONCURRENCY': 8,
     
        'SPLASH_URL': 'http://localhost:8050',
        'DOWNLOADER_MIDDLEWARES': {
          'scrapy_splash.SplashCookiesMiddleware': 723,
          'scrapy_splash.SplashMiddleware': 725,
          'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
        },
        'SPIDER_MIDDLEWARES': {
          'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
        },
        'DUPEFILTER_CLASS': 'scrapy_splash.SplashAwareDupeFilter',
        'HTTPCACHE_STORAGE': 'scrapy_splash.SplashAwareFSCacheStorage',
     
      }
     
      def start_requests(self):
        yield SplashRequest(self.start_urls[0], callback=self.parse, args={'wait': 0.5})
     
      def parse(self, response):
        """
        :param response:
        :return:
        """
        response_str = response.body.decode('utf-8', 'ignore')
        self.logger.info(response_str)
        self.logger.info(response_str.find('http://www.biqugedu.com/files/article/image/0/25/25s.jpg'))
    

    scrapy-splash接收到js请求:

    到此这篇关于scrapy-splash简单使用详解的文章就介绍到这了,更多相关scrapy-splash 使用内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

    您可能感兴趣的文章:
    • 爬虫进阶-JS自动渲染之Scrapy_splash组件的使用
    上一篇:详解使用scrapy进行模拟登陆三种方式
    下一篇:Scrapy实现模拟登录的示例代码
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    scrapy-splash简单使用详解 scrapy-splash,简单,使用,详解,