• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    TP5框架使用QueryList采集框架爬小说操作示例

    本文实例讲述了TP5框架使用QueryList采集框架爬小说操作。分享给大家供大家参考,具体如下:

    最近想写一个小说网站,就去搜资料,搜出来TP5可以使用QueryList采集框架去爬小说,这里我来给大家详解如何用QueryList去爬小说。
    #首先应该下载TP5框架,然后在extend里面建立一个文件夹命名为QL,再去官网下载QueryList,然后把phpQuery.php 和 QueryList.php 两个文件放在QL文件夹下,如图:

    ##在QueryList.php里面加上命名空间:

    namespace QL;
    require ‘phpQuery.php';
    
    use phpQuery,Exception,ReflectionClass;
    use Monolog\Logger;
    use Monolog\Handler\StreamHandler;
    use Iterator,Countable,ArrayAccess;//使用phpQuuery接口
    
    

    #准备工作做好了下来开始采集小说(我们这里以https://www.17k.com/这个网站的免费小说为例)

    ##先找到你要采集的小说的目录页面的url作为采集url

    ##再在url前面加上 view-source: 查看他的源码,找到包含所有章节url的class属性,写好采集规则,执行语句进行采集

    ##采集他的章节名和每一章节的url,因为url采集下来没有域名,需要用正则表达式加上https://www.17k.com 然后采用for循环去一个一个采集每一章节的内容

    ##最后再将采集到的章节名与章节内容存入数据库

    直接上代码:

    ?php
    namespace app\index\Controller;
    use think\Controller;
    use QL\QueryList;
     
    class Xiaoshuo extends Controller
    {
      public function index()
      {
        //采集目标
        //$url = 'https://www.17k.com/list/3032846.html?offset=';
         $url = 'https://www.17k.com/list/3041226.html?offset=';
        //采集规则
        $rules = array(
              'title'=>array('.ellipsis','text'),//获取书每个章节名
              'link'=>array('.Volume a','href','-.folding -copy -a'),//获取每个章节链接
            );
        //开始采集
        $data = QueryList::Query($url,$rules)->data;
        //var_dump($data);
        //求数组长度
         $j = count($data);
        if($data)
        {
          for($i=0;$i=$j-1;$i++)
          {
           $values = ['title'=>$data[$i]['title'],'link'=>$data[$i+1]['link']];
           $_POST['url']=$data[$i+1]['link'];
           if (!preg_match("/^(http|ftp):/", $_POST['url']))//给链接加上域名头
            {
             $url1 = 'https://www.17k.com'.$_POST['url'];
            }
           $rules1 = array(
              'novel'=>array('.p','text','-li -a'),
              );
           $data1 = QueryList::Query($url1,$rules1)->data;
           //var_dump($data1);
           $values1 = ['title'=>$data[$i]['title'],'novel'=>$data1[0]['novel']];//将章节名、内容插入数据库
           $data2 = \think\Db::name('novel6')->insert($values1); 
          }
        }
        
      }
    }
    

    我们来打印一下他的章节名和章节内容:
    注:1.class属性一定要找对
    2.采集下来 $data 的第一个数组的link不是第一章的url,下一个才是第一章的,所以 data[ data[" role="presentation" style="position: relative;">data[i+1][‘link'] 是他第i章的url

    更多关于thinkPHP相关内容感兴趣的读者可查看本站专题:《ThinkPHP入门教程》、《thinkPHP模板操作技巧总结》、《ThinkPHP常用方法总结》、《codeigniter入门教程》、《CI(CodeIgniter)框架进阶教程》、《Zend FrameWork框架入门教程》及《PHP模板技术总结》。

    希望本文所述对大家基于ThinkPHP框架的PHP程序设计有所帮助。

    您可能感兴趣的文章:
    • 基于ThinkPHP5框架使用QueryList爬取并存入mysql数据库操作示例
    • php使用QueryList轻松采集js动态渲染页面方法
    • thinkphp 抓取网站的内容并且保存到本地的实例详解
    • jquery+thinkphp实现跨域抓取数据的方法
    • thinkphp5 URL和路由的功能详解与实例
    • ThinkPHP5查询数据及处理结果的方法小结
    • TP5(thinkPHP5)框架基于ajax与后台数据交互操作简单示例
    • thinkphp5.1 文件引入路径问题及注意事项
    • thinkPHP5(TP5)实现改写跳转提示页面的方法
    • tp5(thinkPHP5)框架数据库Db增删改查常见操作总结
    • thinkphp5 加载静态资源路径与常量的方法
    • tp5(thinkPHP5)框架实现多数据库查询的方法
    上一篇:PHP实现基本留言板功能原理与步骤详解
    下一篇:php中加密解密DES类的简单使用方法示例
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    TP5框架使用QueryList采集框架爬小说操作示例 TP5,框架,使用,QueryList,采集,