• 全国400电话网上服务平台
    强大号码库资源任选,方便,快捷,快速开通。
    咨询热线:400-1100-266  

    织梦dedecms采集中用到的一些过滤规则
    POST TIME:2017-11-13 01:04

    dedecms的过滤规则写起来不是很难,规则如下:

    代码示例:
    {dede:trim}要过滤的内容{/dede:trim}


    如果要过滤的内容很简单,完全可以把过滤规则直接写在“{dede:trim}”和“{/dede:trim}”之间。
    对于比较复杂的情况,请考虑使用正则,你懂的,正则表达式,那是相当强劲的。

    以下是一些过滤规则的例子,供大家参考。

    1、采集中去除内容里的超链接:

    代码示例:
    {dede:trim}<a([^>]*)>{/dede:trim}
    {dede:trim}</a>{/dede:trim}


    假如要将所有超链接内容都去除,规则是:

    代码示例:
    {dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}


    这两个规则的不同通过下面代码来解释
    例如文章代码中包含着如下内容:
    <a href="#">超链接</a>
    通过第一个规则,采集结果是:超链接

    2、过滤广告
    对于广告来说,过滤规则就得针对html中看到的内容使用规则了,例如某些广告仅仅是引用某个JS文件,例如

    代码示例:
    <script src=’/plus/ad_js.php?aid=4′ language=’javascript’></script>


    这样的规则只需

    代码示例:
    {dede:trim}<script(.*)>{/dede:trim}
    {dede:trim}</script>{/dede:trim}


    如果某些广告的内容是JS代码写在<script></script>区间里的,例如GG的广告,那么过滤规则应该是:

    代码示例:
    {dede:trim}<script>(.*)</script>{/dede:trim}

    3、一些测试过的过滤规则

    代码示例:

    {dede:trim}<!–(.*)–>{/dede:trim}
    {dede:trim}<select([^>]*)>([^>]*)</select>{/dede:trim}
    {dede:trim}<option([^>]*)>([^>]*)</option>{/dede:trim}
    {dede:trim}<select([^>]*)>{/dede:trim}
    {dede:trim}</select>{/dede:trim}
    {dede:trim}<param([^>]*)>{/dede:trim}
    {dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}
    {dede:trim}<embed([^>]*)>{/dede:trim}
    {dede:trim}</embed>{/dede:trim}
    {dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
    {dede:trim}<object([^>]*)>{/dede:trim}
    {dede:trim}</object>{/dede:trim}
    {dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}
    {dede:trim}<OBJECT([^>]*)>{/dede:trim}
    {dede:trim}</OBJECT>{/dede:trim}
    {dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
    {dede:trim}<iframe([^>]*)>{/dede:trim}

    //by www.jbxue.com//
    {dede:trim}</iframe>{/dede:trim}
    {dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
    {dede:trim}<IFRAME([^>]*)>{/dede:trim}
    {dede:trim}</IFRAME>{/dede:trim}
    {dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
    {dede:trim}<font([^>]*)>{/dede:trim}
    {dede:trim}</font>{/dede:trim}
    {dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
    {dede:trim}<a([^>]*)>{/dede:trim}
    {dede:trim}</a>{/dede:trim}
    {dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
    {dede:trim}<td([^>]*)>{/dede:trim}
    {dede:trim}</td>{/dede:trim}
    {dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
    {dede:trim}<tr([^>]*)>{/dede:trim}
    {dede:trim}</tr>{/dede:trim}
    {dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
    {dede:trim}<tbody>{/dede:trim}
    {dede:trim}</tbody>{/dede:trim} // 内容来自www.jbxue.com//
    {dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
    {dede:trim}<table([^>]*)>{/dede:trim}
    {dede:trim}</table>{/dede:trim}
    {dede:trim}<span([^>]*)>{/dede:trim}
    {dede:trim}</span>{/dede:trim}
    {dede:trim}</IFRAME>{/dede:trim}
    {dede:trim}<script>(.*)</script>{/dede:trim}
    {dede:trim}<script(.*)>{/dede:trim}
    {dede:trim}</script>{/dede:trim} // 本文

    
    Copyright © 2003-2016
    时间:9:00-21:00 (节假日不休)
    版权所有:巨人网络(扬州)科技有限公司
    总部地址:江苏省信息产业基地11号楼四层
    《增值电信业务经营许可证》 苏B2-20120278
    X

    截屏,微信识别二维码

    微信号:veteran88

    (点击微信号复制,添加好友)

     打开微信

    微信号已复制,请打开微信添加咨询详情!