• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    Python中Pyspider爬虫框架的基本使用详解

    1.pyspider介绍  

         一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。

    2.pyspider文档

    1>中文文档:http://www.pyspider.cn/

    2>英文文档:http://docs.pyspider.org/

    3.pyspider安装

    打开cmd命令行工具,执行命令

    pip install pyspider

    出现下图则安装成功

    4.pyspider启动服务,进入WebUI界面

    安装pyspider后,打开cmd命令工具,执行命令来启动服务器

    pyspider

    出现下图则启动服务成功,默认地址端口为127.0.0.1:5000

    输入地址127.0.0.1:5000,打开WebUI界面

    队列统计是为了方便查看爬虫状态,优化爬虫爬取速度新增的状态统计.每个组件之间的数字就是对应不同队列的排队数量.通常来是0或是个位数.如果达到了几十甚至一百说明下游组件出现了瓶颈或错误,需要分析处理.

    新建项目:pyspider与scrapy最大的区别就在这,pyspider新建项目调试项目完全在web下进行,而scrapy是在命令行下开发并运行测试.

    组名:项目新建后一般来说是不能修改项目名的,如果需要特殊标记可修改组名.直接在组名上点鼠标左键进行修改.注意:组名改为delete后如果状态为stop状态,24小时后项目会被系统删除.

    运行状态:这一栏显示的是当前项目的运行状态.每个项目的运行状态都是单独设置的.直接在每个项目的运行状态上点鼠标左键进行修改.运行分为五个状态:TODO,STOP,CHECKING,DEBUG,RUNNING.各状态说明:TODO是新建项目后的默认状态,不会运行项目.STOP状态是停止状态,也不会运行.CHECHING是修改项目代码后自动变的状态.DEBUG是调试模式,遇到错误信息会停止继续运行,RUNNING是运行状态,遇到错误会自动尝试,如果还是错误会跳过错误的任务继续运行.

    速度控制:很多朋友安装好用说爬的慢,多数情况是速度被限制了.这个功能就是速度设置项.rate是每秒爬取页面数,burst是并发数.如1/3是三个并发,每秒爬取一个页面.

    简单统计:这个功能只是简单的做的运行状态统计,5m是五分钟内任务执行情况,1h是一小时内运行任务统计,1d是一天内运行统计,all是所有的任务统计.

    运行:run按钮是项目初次运行需要点的按钮,这个功能会运行项目的on_start方法来生成入口任务.

    任务列表:显示最新任务列表,方便查看状态,查看错误等

    结果查看:查看项目爬取的结果.

    5.创建pyspider项目

    点击上图中的新建项目按钮

    6.创建后的pyspider项目

    到此这篇关于Python中Pyspider爬虫框架的基本使用详解的文章就介绍到这了,更多相关Pyspider爬虫框架使用内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

    您可能感兴趣的文章:
    • python爬虫框架feapder的使用简介
    • 一文读懂python Scrapy爬虫框架
    • python Scrapy爬虫框架的使用
    • 详解Python的爬虫框架 Scrapy
    • python3 Scrapy爬虫框架ip代理配置的方法
    • Python3环境安装Scrapy爬虫框架过程及常见错误
    • windows下搭建python scrapy爬虫框架步骤
    • windows7 32、64位下python爬虫框架scrapy环境的搭建方法
    • 上手简单,功能强大的Python爬虫框架——feapder
    上一篇:Python3 + Appium + 安卓模拟器实现APP自动化测试并生成测试报告
    下一篇:详解win10下pytorch-gpu安装以及CUDA详细安装过程
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    Python中Pyspider爬虫框架的基本使用详解 Python,中,Pyspider,爬虫,框架,