• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    Tsys OkHtm.com修改版数据采集方法
    采集功能

    [1]分类管理

    a 添加一个频道

    upload/200511/14_201951_1.jpg


    b 频道(点击进入栏目管理)

    upload/200511/14_202156_2.jpg


    c 添加新栏目

    upload/200511/14_202258_3.jpg



    [2] 项目管理

    a 添加新项目

    upload/200511/14_202519_4.jpg


    项目名称: 填写采集的项目名称,便于自己以后管理
    所属频道: 请选择采集的频道
    所属栏目: 请选择所属于的栏目
    所属专题: 不属于任何专题
    网站名称: 自己用来采集的对象网站名称
    网站网址: 自己用来采集的对象的地址
    网站登录: 不需要登录 设置参数
    登录参数: 需要登录才能访问的请设置登录参数(不支持验证码登录)
    提交地址:点击 登录 按钮后用来验证用户名、密码的文件网址,如动力3.62的
    是 http://www.****.com/Admin_ChkLogin.asp。
    用户(密码)参数:查看登录表单源码,找到形如下面之类的代码
    用户名:input type="text" name="UserName" value="">
    密码:input type="password" name="Password" value="">
    用户参数就是--第一行的name=后面的UserName
    密码参数就是--第二行的name=后面的Password
    失败信息: 用户名或者密码不正确时,登录后的失败提示信息,用于判断登录是否成功的一个标志,请一定要填写,否则不能采集,比如:您输入的用户名或密码不正确,请重新输入!
    项目备注:该项目的其它要记录的信息,以后每天都要采集

    b 列 表 设 置

    upload/200511/14_203032_4.jpg


    Quote
    列表就像一本书的目录,目录可以有一页,也可以有很多页,列表也一样。

    列表索引页面:

    你要开始采集的列表页。

    列表开始/结束标记:

    平面上的两点确定一条直线,学过几何吧?用在这里是一样的道理,开始/结束标记可以确定你要采集的新闻,有的这里没有设置好结果采集到其它新闻去了。
    比如这是某一列表页面的主要部分代码:
    table width="98%" border="0" cellspacing="0" cellpadding="3">
    tr>
    td align="left" valign="top">br>
    a href="News.asp?id=1" target=_blank>新闻标题/a>br>
    a href="News.asp?id=2" target=_blank>新闻标题/a>br>
    ....省略
    a href="News.asp?id=50" target=_blank>新闻标题/a>
    /td>
    /tr>
    /table>
        红色部分就是我们要的列表开始标记和结束标记,是不是把你想要的新闻夹在中间了?按照这样的取法可以选择好多对开始标记和结束标记,也就是说它们并不是唯一的。但是它们又是相对唯一的,这里的唯一是指,开始标记在第一条新闻以上的代码中唯一,结束标记在开始标记到结束标记之间的是唯一的。

    列表索引分页:

       (1)设置标签
    列表索引页的部分代码如下:
    td height="24" align="center" bgcolor="#F6f7f8"> 1 A HREF="index_2.html">2/A> A HREF="index_3.html">3/A> A HREF="index_4.html">3/A>a href="index_2.html">下一页/a>
    a href="index_4.html">尾页/a> /td>
    红色部分为分页开始/结束标记,只要这两个代码确定,不是不就可以确定“下一页”了?,剩下的交给程序来处理,有的填写:A HREF="和">2/A>,这就错了,怎么错了自己想想。

       索引分页重定向:参考链接设置

    (2)批量生成
       如有些列表是这种形式:
       第一页http://www.it.com.cn/news/cyxw/yejie/index_1.html
       第二页http://www.it.com.cn/news/cyxw/yejie/index_2.html
       第三页http://www.it.com.cn/news/cyxw/yejie/index_3.html

       那么可以这设置:{$ID}是必须的

       原字符串:http://www.it.com.cn/news/cyxw/yejie/index_{$ID}.html

       生成范围:1--3

       结果程序会生成:http://www.it.com.cn/news/cyxw/yejie/index_1.html

       http://www.it.com.cn/news/cyxw/yejie/index_2.html

       http://www.it.com.cn/news/cyxw/yejie/index_3.html

       这样的几个列表页面

       (3)手动添加

       输入一页网址后按回车再输入另一页,如此反复可以输入多个网址。

    (3)链接设置

       链接开始/结束标记:

       这里没设置好采集过程中可能会路途停止

       部分代码

    table width="98%" border="0" cellspacing="0" cellpadding="3">
    tr>
    td align="left" valign="top">br>
    a href="List.asp?type=IT新闻">[IT新闻]/a>a href="New.asp?id=1" target=_blank>新闻标题/a>
    a href="List.asp?type=Pc新闻">[Pc新闻]/a>a href="New.asp?id=2" target=_blank>新闻标题/a>
    ....省略
    a href="List.asp?type=IT新闻">[IT新闻]/a>a href="New.asp?id=50" target=_blank>新闻标题/a>
    /td>
    /tr>
    /table>
       红色部分为链接开始/结束标记,注意:如果新闻标题的前面有栏目链接(包括其它的链接,就像上面这个有IT新闻、Pc新闻一样)的,开始标记必须往前延伸,我以前做的3.62版的录像中开始标记是href=,这个只能用于新闻标题前面没有栏目链接的情况。

       链接的重新定位:

       如果新闻的链接特殊,可使用本功能对新闻网址重新定位,比如有些代码可能是这样:

    a href="Javascript:window.open('1')" target=_blank>新闻标题/a>br>
    a href="Javascript:window.open('5')" target=_blank>新闻标题/a>br>
    ....省略
    a href="Javascript:window.open('50')" target=_blank>新闻标题/a>

       把开始/结束标记设置为红色部分,点击一条新闻看它的真实网页地址,比如第一条新闻的地址是这样,http://www.scuta.net/news.asp?id=1,那么绝对链接就设置为http://www.scuta.net/news.asp?id={$ID}就成了。
    c 列 表 截 取 测 试

    upload/200511/14_203230_4.jpg


    upload/200511/14_203338_4.jpg


    d 列 表 新 闻 链 接 测 试

    upload/200511/14_203430_4.jpg


    e 正 文 设 置

    upload/200511/14_203509_4.jpg


    f 采 样 测 试

    upload/200511/14_203605_4.jpg


    g 属 性 设 置

    upload/200511/14_203651_4.jpg


    设置一些采集的选项,注意

    采集选项: 立即发布 保存图片 倒序采集 外部链接 中 保存图片不要勾选.

    h 点"完成".采集设置完毕

    [3] 数据采集

    在这里可以看到自己刚设置好的项目,
    采集模式:快速模式 稳定模式 筛选模式 采集测试 正文预览
    这几种自己琢磨了,不多描述 .结果都差不多.

    然后开始漫长的采集过程.服务器速度和网速有关系.

    [4] 数据审核

    数据审核中,有"全选" "部分选择" "全部" 这几种模式,点标题可以查看采集的文章(带图片) .也可以删除数据

    [5] 数据导出

    是把数据从采集库中导入到cms数据表中,默认的是审核完的文章才可以导出,如果导出过的话会显示"已导出"反之亦然.

    数据导出时有几个选项需要注意:

    upload/200511/14_204400_4.jpg


    有三种导出模式: 部分选择,全部选择,整个栏目导出.但是不管那种模式都要选择 ·请输出的[资源类别]方向 或者[资源特性],这些是与系统中你建立的资源分类相挂勾的,选择导出到哪个分类.

    导出完毕.

    资源管理-->常规资源 中可以看到你刚才采集到的文章,默认为已经审核过.

    然后可以选择生成或者编辑.
    上一篇:常用ASP函数集【经验才是最重要的】
    下一篇:TsysV1.1 系统文件清单介绍
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    Tsys OkHtm.com修改版数据采集方法 Tsys,OkHtm.com,修,改版,数据采集,