• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    Nginx反爬虫策略,防止UA抓取网站

    新增反爬虫策略文件:

    vim /usr/www/server/nginx/conf/anti_spider.conf

    文件内容

    #禁止Scrapy等工具的抓取 
    if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { 
       return 403; 
    } 
    #禁止指定UA及UA为空的访问 
    if ($http_user_agent ~ "WinHttp|WebZIP|FetchURL|node-superagent|java/|FeedDemon|Jullo|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|Java|Feedly|Apache-HttpAsyncClient|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|BOT/0.1|YandexBot|FlightDeckReports|Linguee Bot|^$" ) { 
       return 403;        
    } 
    #禁止非GET|HEAD|POST方式的抓取 
    if ($request_method !~ ^(GET|HEAD|POST)$) { 
      return 403; 
    }
    #屏蔽单个IP的命令是
    #deny 123.45.6.7
    #封整个段即从123.0.0.1到123.255.255.254的命令
    #deny 123.0.0.0/8
    #封IP段即从123.45.0.1到123.45.255.254的命令
    #deny 124.45.0.0/16
    #封IP段即从123.45.6.1到123.45.6.254的命令是
    #deny 123.45.6.0/24
    # 以下IP皆为流氓
    #deny 58.95.66.0/24;

    配置使用

    在站点的server中引入

    # 反爬虫  
    include /usr/www/server/nginx/conf/anti_spider.conf

    最后重启nginx

    校验是否有效

    模拟YYSpider

    λ curl -X GET -I -A 'YYSpider' https://www.myong.top
    HTTP/1.1 200 Connection established
    HTTP/2 403
    server: marco/2.11
    date: Fri, 20 Mar 2020 08:48:50 GMT
    content-type: text/html
    content-length: 146
    x-source: C/403
    x-request-id: 3ed800d296a12ebcddc4d61c57500aa2

    模拟百度Baiduspider

    λ curl -X GET -I -A 'BaiduSpider' https://www.myong.top
    HTTP/1.1 200 Connection established
    HTTP/2 200
    server: marco/2.11
    date: Fri, 20 Mar 2020 08:49:47 GMT
    content-type: text/html
    vary: Accept-Encoding
    x-source: C/200
    last-modified: Wed, 18 Mar 2020 13:16:50 GMT
    etag: "5e721f42-150ce"
    x-request-id: e82999a78b7d7ea2e9ff18b6f1f4cc84

    爬虫常见的User-Agent

    FeedDemon       内容采集 
    BOT/0.1 (BOT for JCE) sql注入 
    CrawlDaddy      sql注入 
    Java         内容采集 
    Jullo         内容采集 
    Feedly        内容采集 
    UniversalFeedParser  内容采集 
    ApacheBench      cc攻击器 
    Swiftbot       无用爬虫 
    YandexBot       无用爬虫 
    AhrefsBot       无用爬虫 
    YisouSpider      无用爬虫(已被UC神马搜索收购,此蜘蛛可以放开!) 
    jikeSpider      无用爬虫 
    MJ12bot        无用爬虫 
    ZmEu phpmyadmin    漏洞扫描 
    WinHttp        采集cc攻击 
    EasouSpider      无用爬虫 
    HttpClient      tcp攻击 
    Microsoft URL Control 扫描 
    YYSpider       无用爬虫 
    jaunty        wordpress爆破扫描器 
    oBot         无用爬虫 
    Python-urllib     内容采集 
    Indy Library     扫描 
    FlightDeckReports Bot 无用爬虫 
    Linguee Bot      无用爬虫

    以上就是Nginx反爬虫策略,防止UA抓取网站的详细内容,更多关于Nginx 反爬虫的资料请关注脚本之家其它相关文章!

    上一篇:windows apache环境下部署SSL证书让网站支持https的配置方法
    下一篇:IDEA2020.1.2创建web项目配置Tomcat的详细教程
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    Nginx反爬虫策略,防止UA抓取网站 Nginx,反,爬虫,策略,防止,