• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    Linux Shell+Curl网站健康状态检查脚本,抓出中国博客联盟失联站点

    一开始搭建中国博客联盟,既有博友提醒我,做网址大全这类网站维护很麻烦,需要大量的精力去Debug一些已夭折的网站,更是拿松哥的博客大全举例。当然,我也是深以为然。前些时间,看到梦轩丽人的boke123网址大全的维护记录,好像是纯手工检查,张戈实在是佩服的五体投地,太有毅力了。

    现在博客联盟也收录的博客也已破200了,全部来自自主提交,不管你是草博还是名博,张戈不会强买强卖。由于大部分都是建站不过半年的新站,半路放弃、提前太监的博客估计还是有的,于是我决定还是把站点维护这个工作做起来。

    上午用PHP做了一个放到了京东云试了下,发现检测速度一般,要等上半天(我写的php太蹩脚,就不献丑了)。

    随后,我在VPS上写了一个多线程的网站状态检测脚本,直接从数据库load站点地址,然后用curl去检测返回码,发现速度非常好,基本1分钟内就能出结果
    以下是脚本代码:

    #!/bin/bash
    #Author:ZhangGe
    #Date:2014-08-21
    #Desc:Check the site of ZGboke Alliance.
    #取出网站数据
    data=`/usr/bin/mysql -uroot -p123456 -e "use zgboke;select web_url from dir_websites where web_status='3';" -N -B | awk '{print $1}'`
    if [ -z "$data" ];then
        echo "Faild to connect database!"
        exit 1
    fi
    test -f result.log  rm -f result.log
    function delay {
        sleep 3
    }
    tmp_fifofile=/tmp/$$.fifo
    mkfifo $tmp_fifofile
    exec 6>$tmp_fifofile
    rm $tmp_fifofile
    #定义并发线程数,需根据vps配置进行调整。
    thread=100
    for ((i=0 ;i$thread;i++ ))
    do
        echo
    done>6
    #开始多线程循环检测
    for url in $data
    do
        read -u6
        {
        #curl抓取网站http状态码
        code=`curl -o /dev/null --retry 3 --retry-max-time 8 -s -w %{http_code} $url`
        echo "$code ---> $url">>result.log
        #判断子线程是否执行成功,并输出结果
        delay  {
            echo "$code ---> $url"
        } || {
            echo "Check thread error!"
        }
        echo > 6
    }
    done
    #等待所有线程执行完毕
    wait
    exec 6>-
    #找出非200返回码的站点
    echo List of exception website:
    cat result.log | grep -v 200
    exit 0 

    Ps:关于shell多线程脚本,后续文章会有一个详细说明,本文篇幅有限,就不多说了。
    以下是中国博客联盟第一次成员站点存活检测的结果:
    ①、 非200返回码的异常站点:

    ②、脚本抓取的无法访问站点:

    人工访问筛选结果:
    wangyingxue.net(王英学博客):无法访问,经确认处于备案中 √
    www.tao0102.com(长江博客):可以访问 √
    blog.hack7d.com(Mcdull技术博客):无法访问 ×
    www.1992621.com(教师日记):可以访问 √
    www.3miaotu.com(三秒兔):无法访问 ×
    xiaoxiaomayi.com(小小蚂蚁博客):可以访问 √
    www.awrui.com(李文栋博客):可以访问 √

    Ps:脚本检测机制为:8s内未连通的判定为异常,并重试3次,最后输出结果,若三次均异常则为000。从图中和人工筛选可以看出,存在一些误杀,这个和8s的设定有一定关系。可以考虑设置为更长时间,得到更准确的结果,当然最终还是要结合人工确认的,所以也没多大关系。
    后续,中国博客联盟会制订一个检查周期,最短每星期检查一次,最长一个月检查一次,争取让每个展示的站点都能正常访问。当然,我也会将每次检查的结果公布在中国博客联盟的站长资讯专栏,方便所有成员查看。
    由于目前中国博客联盟部署在京东云擎,无法远程操控数据库,所以只好暂时用半自动的模式。等以后有时间搬到了阿里云等VPS上后,将会将脚本改成全自动状态,当有网站联系多次检测为失联状态时,将会暂时将其设置为隐藏状态。

    您可能感兴趣的文章:
    • Linux Shell中curl和wget使用代理IP的方法教程
    • Linux下命令行cURL的10种常见用法示例
    • Linux下模拟http的get/post请求(curl or wget)详解
    • Linux中curl命令和wget命令的使用介绍与比较
    • Linux中的curl命令详解
    • Linux 中 CURL常用命令详解
    • linux curl命令详解及实例分享
    • linux命令行下使用curl命令查看自己机器的外网ip
    • linux下为php添加curl扩展的方法
    • Linux curl命令详解
    上一篇:分享一个入门级可控多线程shell脚本代码
    下一篇:CCKiller:Linux轻量级CC攻击防御工具,秒级检查、自动拉黑和释放
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    Linux Shell+Curl网站健康状态检查脚本,抓出中国博客联盟失联站点 Linux,Shell+Curl,网站,健康,