您的位置:首页 > 新闻资讯 >文章内容
网站常用四种反爬虫,爬虫们如何应对?
来源:互联网 作者:admin 时间:2019-02-18 16:23:34

    搭建网站,需要考虑反爬虫,否则容易被大量的爬虫影响。网站的反爬虫基本上都是必须要设置的,那么设置哪些反爬虫好呢?哪种反爬虫拦截效果好?今天跟小编去了解下网站常用四种反爬虫:


    1.使用robots.txt文件


    例如阻止所有的爬虫爬取,但是这种效果不是很明显。


    2.基于程序本身去防止爬取


    作为爬虫程序,爬取行为是对页面的源文件爬取,如爬取静态页面的html代码,可以用jquery去模仿写html,这种方法伪装的页面就很难被爬取了,不过这种方法对程序员的要求很高。


    3.使用nginx的自带功能


    通过对httpuseragent阻塞来实现,包括GET/POST方式的请求,以nginx为例,具体步骤如下:


网站常用四种反爬虫,爬虫们如何应对?


    4.基于iptables和shell脚本


    可以对nginx的access.log进行策略定义,例如定义在1分钟内并发连接数超过30个ip为非法,如ip不在白名单内,则加入iptables策略封掉,当然这种的缺点是会有“误伤”,策略细粒度越小就会有更多的“误伤”,细粒度大就会使效果变差,另外还有类似的第三方工具fail2ban,利用做filter和actor对一些有危害的操作记录或是封ip。但是对于某个特定的爬虫地址(例如网易、有道)的爬取行为拒绝也很难准确做到,因为你无法准确知道这些特定的爬虫ip地址(例如网易、有道),以下是我的定位方式,不过发现由于ip库不准确造成错误的屏蔽。注意:建议不要用封ip条目的方式,iptables列表长度是65535时就会封满,服务器也就会死机。


网站常用四种反爬虫,爬虫们如何应对?


    以上介绍的就是网站常用四种反爬虫,对于这些反爬虫,大家又是怎么应对的呢?是使用代理IP,还是伪装请求头,设置cookie...


    想要了解更多的突破反爬虫方法,可以关注代理精灵,突破反爬虫有妙招。


相关文章内容简介
推荐阅读
  • 20 2019-03
    如何获取国内高质量的代理IP?

    代理IP的来源比较多,一般大家都使用哪家的质量比较好?来源都有哪些?效果怎么样?如何获取国内高质量的代理IP?

  • 13 2019-06
    哪里找免费socks5代理?

    哪里找免费socks5代理?如果需要使用socks5代理,大家都是上哪里找的?socks5代理没有http代理使用那么广泛,代理数量也没有那么多,总之不好找。

  • 10 2019-05
    代理IP对网络销售有什么帮助?

    代理IP对网络销售有什么帮助?代理IP用于网络销售是有一定的好处,做过电商的朋友都应该了解一些,网络销售需要一个稳定并且强大的平台,才能够更好的运营,大数据时代下,代理IP成为电

  • 25 2019-09
    如何使用代理IP抓取微信文章?

    微信拥有非常庞大的用户量,微信平台让自媒体这个行业成为了一门专门的职业,公众号每天产生了海量的文章,如果我们想要爬取这些文章数据,那么应该怎么执行呢?代理IP的使用是必不可少

  • 16 2019-05
    怎么找高质量的代理ip资源?

    怎么找高质量的代理ip资源?代理IP资源并不少,大家缺的是高质量的IP资源,目前IP资源还是很稀缺的, ipv4早就分光了,ipv6尚未全面普及,因此很多IP资源都是重复使用的,很多共享IP资源,质

  • 15 2019-03
    付费代理IP,用API代理还是爬虫代理好

    企业在使用代理IP时,对代理有质量上的追求,肯定是选择购买代理使用的。这代理IP也分类型的,有些是支持下载软件,直接使用的;有些是要提取IP进行使用;还有些是连接服务器使用的。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部