您的位置:首页 > 新闻资讯 >文章内容
常见几个突破反爬虫的技巧
来源:互联网 作者:admin 时间:2019-01-14 15:45:31

    写一个爬虫并不难,特别是使用python语言编写更是可以利用各种的库,相对其他语言更加容易些,即使如此,爬虫不能很高效的完成任务的,这是因为网站都有设置了反爬虫,如果不能突破这些反爬虫,是无法顺利的获取到信息的。那么这么反爬虫应该如何突破呢?下面小编为大家介绍几个突破反爬虫的技巧:


    1.利用分布式爬取


    分布式爬取的也有很多Githubrepo。基本原理具体是维护一个所有集群机器能够有效分享的分布式队列。


    运用分布式爬取再有其它一个意义:大规模爬取,单台设备的负荷太大,更何况速度比较慢,多台设备还可以设置一个master管理多台slave去一起爬取。


常见几个突破反爬虫的技巧


    2.修改User-Agent


    最普遍的就是伪装浏览器,修改User-Agent(用户代理)。


    User-Agent是指包含浏览器信息、操作系统信息等的一个字符串,也称作一种特殊的网络协议。服务器根据它判断当前浏览对象是浏览器、邮件客户端还是爬虫。在request.headers里还可以查看user-agent,有关如何分析数据包、查找其User-Agent等信息,这些在前边的文章里提到过。


    具体做法可以把User-Agent的值改为浏览器的办法,乃至可以设置一个User-Agent池(list,数组,字典都可以),存放多个“浏览器”,每一次爬取的时候任意取一个来设置request的User-Agent,这样User-Agent会一直在变化,防止被墙。


    3.修改IP


    其实微博识别的是IP,并不是账号。换句话说,当需要连续爬取许多数据的时候,模拟登录都没有意义。如果是相同IP,不管怎么换账号都没有用,主要的是换IP。


    web server应对爬虫的策略之一就是直接将IP或是整个IP段都封掉禁止访问,当IP被禁封后,转换到其他IP继续访问即可。方法:代理IP、本地IP数据库(使用IP池),比如使用机灵代理,千万级的IP池,更换IP更有保障。


    4.设置cookies


    cookie其实是储存在用户终端的某些被加密的数据,一些网站通过cookies来识别用户身份,假如某个访问总是高频率地发请求,很可能会被网站注意到,被嫌疑为网络爬虫,这时候网站就可以通过cookie找到这些访问的用户而拒绝接受其访问。还可以自定义设置cookie策略(防止cookie rejected问题:拒绝写入cookie)或者禁止cookies。


    5.控制时间频率


    规模性集中访问对服务器的影响很大,网络爬虫可以短时间扩大服务器负载。在这里必须注意的是:设定下载时间间隔的范围控制,时间间隔过长,无法满足短时间大规模抓取的要求,等待的时间过短则很有可能被拒绝访问。


    在之前“从url获取HTML”的方法里,针对httpGet的配置设置了socket超时和连接connect超时,其实这里的时长不是绝对的,关键在于目标网站对网络爬虫的控制。另外,在scrapy爬虫框架里,专有参数可以设置下载等待时间download_delay,这些参数可以设置在setting.py里,也能设置在spider里。


    上文介绍了五个突破反爬虫的技巧,这里要提醒下,互联网上海量的网站,各个网站的反爬虫机制都不同,不尽是使用上面的反爬虫机制,但是上面介绍的五种是非常常见的,即使没有全部使用,也包含一二。另外,还有许多的反爬虫机制,这就需要根据网站而定了。


相关文章内容简介
推荐阅读
  • 17 2019-12
    如何寻找好用的ip代理​软件?

    如何寻找好用的ip代理​软件?好用的高质量动态ip代理软件,并不是那么的好找,如今互联网时代,不管是电商优化还是人工注册或者是效果回访,ip代理软件的运用能充分达到完满的效果。一

  • 27 2019-05
    代理服务器在网络中的一些用途

    代理服务器在网络中的一些用途,如果能够掌握这些用途,这对于我们的工作会更加有帮助的,那么我们就去了解下代理服务器的一些使用,使用代理服务器都有什么好处呢?

  • 10 2019-06
    可以自动设置代理服务器吗?

    可以自动设置代理服务器吗?很多时候都要设置代理服务器使用的,每次都设置来设置去的老麻烦了,如果不使用还需要关闭,能不能自动设置代理服务器呢?我们来试试:

  • 20 2020-04
    怎么挑到最优质的代理ip

    我们平常选取代理商的情况下,是经过哪些渠道呢?是直接通过网上查找,还是朋友推荐?不论是哪一种渠道,在选取代理商的情况下,我们都要认真的对代理商的资质。

  • 02 2019-10
    代理IP网络开源爬虫代码分享

    想要获得海量数据的入口,爬虫技术必不可少。过去由于代理IP的缺乏,爬虫工作的展开较为艰难以及所需要耗费的时间较多,但是自从代理IP得到了使用,爬虫变得轻松了许多,也顺势促进了

  • 17 2019-05
    通过Java爬虫来获取代理IP

    通过Java爬虫来获取代理IP,这方法也不是很难,不过可能大家经常使用的是Python,使用Java比较少,不过不用担心,小编这就为大家介绍下通过Java爬虫来获取代理IP的方法。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部