• 全国400电话网上服务平台
    强大号码库资源任选,方便,快捷,快速开通。
    咨询热线:400-1100-266  

    织梦火车头采集文章列表地址列表错误URL没有协议头是//解决方法
    POST TIME:2021-05-23 01:21

    今天打开火车头采集器需要更新下织梦网站,可是点了开始后发现错误了重新修改了列表采集规则。没仔细看等抓完300多个连接导入数据库时发生错了,仔细一看该目标站的文章列表页将文章url地址做了处理。

       表现:

       常规的文章列表文章URL应该是  <a  href="https://www.dede58.com/URL.html">才对,而该站处理成了<a  href="//www.dede58.com/URL.html">,就是把协议头https或者http给取消了,这个 在一定程度上是可以防范很多采集程序,软件,爬虫的。采集后的地址列表会多一层网址,就成了https://www.dede58.com/www.dede58.com/URL.html,这样的话就无法正确采集内容了。

       

    解决方法:

       在网址获取选项里点选“手动填写链接地址规则”,

       右侧脚本规则填写【a class="item" href="[参数]" title="(*)" target="_blank">】这里的参数就是原始目前的不带协议头的网址。

        实际连接:填写【http:[参数1]】如果该网站是https的这里就填写【https:[参数1]】

       结果:

       以上操作后点获取网址测试正确,从采集,入库等都OK了。

        PS:

        这个网址问题以前看到过,用DEDECMS织梦采集就是网址错误,今天在火车头上总算是解决了。

    
    关于我们 | 付款方式 | 建站知识 | 增值服务 | 网站模板
    Copyright © 2003-2016
    时间:9:00-21:00 (节假日不休)
    版权所有:巨人网络(扬州)科技有限公司
    总部地址:江苏省信息产业基地11号楼四层
    《增值电信业务经营许可证》 苏B2-20120278
    X

    截屏,微信识别二维码

    微信号:veteran88

    (点击微信号复制,添加好友)

     打开微信

    微信号已复制,请打开微信添加咨询详情!