您的位置:首页 > 新闻资讯 >文章内容
常见几个突破反爬虫的技巧
来源:互联网 作者:admin 时间:2019-01-14 15:45:31

    写一个爬虫并不难,特别是使用python语言编写更是可以利用各种的库,相对其他语言更加容易些,即使如此,爬虫不能很高效的完成任务的,这是因为网站都有设置了反爬虫,如果不能突破这些反爬虫,是无法顺利的获取到信息的。那么这么反爬虫应该如何突破呢?下面小编为大家介绍几个突破反爬虫的技巧:


    1.利用分布式爬取


    分布式爬取的也有很多Githubrepo。基本原理具体是维护一个所有集群机器能够有效分享的分布式队列。


    运用分布式爬取再有其它一个意义:大规模爬取,单台设备的负荷太大,更何况速度比较慢,多台设备还可以设置一个master管理多台slave去一起爬取。


常见几个突破反爬虫的技巧


    2.修改User-Agent


    最普遍的就是伪装浏览器,修改User-Agent(用户代理)。


    User-Agent是指包含浏览器信息、操作系统信息等的一个字符串,也称作一种特殊的网络协议。服务器根据它判断当前浏览对象是浏览器、邮件客户端还是爬虫。在request.headers里还可以查看user-agent,有关如何分析数据包、查找其User-Agent等信息,这些在前边的文章里提到过。


    具体做法可以把User-Agent的值改为浏览器的办法,乃至可以设置一个User-Agent池(list,数组,字典都可以),存放多个“浏览器”,每一次爬取的时候任意取一个来设置request的User-Agent,这样User-Agent会一直在变化,防止被墙。


    3.修改IP


    其实微博识别的是IP,并不是账号。换句话说,当需要连续爬取许多数据的时候,模拟登录都没有意义。如果是相同IP,不管怎么换账号都没有用,主要的是换IP。


    web server应对爬虫的策略之一就是直接将IP或是整个IP段都封掉禁止访问,当IP被禁封后,转换到其他IP继续访问即可。方法:代理IP、本地IP数据库(使用IP池),比如使用机灵代理,千万级的IP池,更换IP更有保障。


    4.设置cookies


    cookie其实是储存在用户终端的某些被加密的数据,一些网站通过cookies来识别用户身份,假如某个访问总是高频率地发请求,很可能会被网站注意到,被嫌疑为网络爬虫,这时候网站就可以通过cookie找到这些访问的用户而拒绝接受其访问。还可以自定义设置cookie策略(防止cookie rejected问题:拒绝写入cookie)或者禁止cookies。


    5.控制时间频率


    规模性集中访问对服务器的影响很大,网络爬虫可以短时间扩大服务器负载。在这里必须注意的是:设定下载时间间隔的范围控制,时间间隔过长,无法满足短时间大规模抓取的要求,等待的时间过短则很有可能被拒绝访问。


    在之前“从url获取HTML”的方法里,针对httpGet的配置设置了socket超时和连接connect超时,其实这里的时长不是绝对的,关键在于目标网站对网络爬虫的控制。另外,在scrapy爬虫框架里,专有参数可以设置下载等待时间download_delay,这些参数可以设置在setting.py里,也能设置在spider里。


    上文介绍了五个突破反爬虫的技巧,这里要提醒下,互联网上海量的网站,各个网站的反爬虫机制都不同,不尽是使用上面的反爬虫机制,但是上面介绍的五种是非常常见的,即使没有全部使用,也包含一二。另外,还有许多的反爬虫机制,这就需要根据网站而定了。


相关文章内容简介
推荐阅读
  • 01 2019-06
    微信手机电脑版怎么设置代理

    微信手机电脑版怎么设置代理?微信的用户多,微商也多,有些人使用多个微信号,但是同IP登陆多个账户容易导致IP被封,因此使用多账号,也需要设置代理来更换IP,那么微信怎么设置代理上

  • 01 2019-08
    不用代理ip可以爬数据吗?

    不用代理ip可以爬数据吗?爬虫作为快速爬取的程序,很多人都是会帮爬虫加上代理ip的,这需要加上不少的成本,那么能不能不用代理ip呢?

  • 08 2019-07
    爬虫程序效率不够找海量动态IP

    爬虫程序效率不够找海量动态IP,这是一个非常好的解决方法。由于网站有反爬机制,其中IP限制是非常限制了爬虫的速度的,如果不降低爬取速度,分分钟被封,这太麻烦了。

  • 18 2019-11
    代理IP无用?是被代理服务商骗了吗?

    用户在购买代理IP服务之后发现无法使用,有的时候会非常着急,怀疑是不是这个代理服务商欺骗了自己,卖的的假IP。代理IP无法使用,具体问题要具体分析。

  • 12 2019-05
    更换IP地址隐藏IP信息的软件

    更换IP地址隐藏IP信息的软件介绍!现在互联网走进了每家每户,电脑和手机更是不用说。很多人都会在日常生活中收到陌生用户发来的网址或者是一些陌生信息。这些陌生信息中一边都存在着

  • 15 2020-01
    HTTP代理协议是什么?

    HTTP 协议极其庞杂,它影响着浏览器、爬虫、代理服务器、防火墙、CDN、Web 容器、微服务等诸多方面,自身的规范却并不统一,所要面对的各类软件的新旧版本也同时存在于网络上。在这种情况

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部