您的位置:首页 > 新闻资讯 >文章内容
常见几个突破反爬虫的技巧
来源:互联网 作者:admin 时间:2019-01-14 15:45:31

    写一个爬虫并不难,特别是使用python语言编写更是可以利用各种的库,相对其他语言更加容易些,即使如此,爬虫不能很高效的完成任务的,这是因为网站都有设置了反爬虫,如果不能突破这些反爬虫,是无法顺利的获取到信息的。那么这么反爬虫应该如何突破呢?下面小编为大家介绍几个突破反爬虫的技巧:


    1.利用分布式爬取


    分布式爬取的也有很多Githubrepo。基本原理具体是维护一个所有集群机器能够有效分享的分布式队列。


    运用分布式爬取再有其它一个意义:大规模爬取,单台设备的负荷太大,更何况速度比较慢,多台设备还可以设置一个master管理多台slave去一起爬取。


常见几个突破反爬虫的技巧


    2.修改User-Agent


    最普遍的就是伪装浏览器,修改User-Agent(用户代理)。


    User-Agent是指包含浏览器信息、操作系统信息等的一个字符串,也称作一种特殊的网络协议。服务器根据它判断当前浏览对象是浏览器、邮件客户端还是爬虫。在request.headers里还可以查看user-agent,有关如何分析数据包、查找其User-Agent等信息,这些在前边的文章里提到过。


    具体做法可以把User-Agent的值改为浏览器的办法,乃至可以设置一个User-Agent池(list,数组,字典都可以),存放多个“浏览器”,每一次爬取的时候任意取一个来设置request的User-Agent,这样User-Agent会一直在变化,防止被墙。


    3.修改IP


    其实微博识别的是IP,并不是账号。换句话说,当需要连续爬取许多数据的时候,模拟登录都没有意义。如果是相同IP,不管怎么换账号都没有用,主要的是换IP。


    web server应对爬虫的策略之一就是直接将IP或是整个IP段都封掉禁止访问,当IP被禁封后,转换到其他IP继续访问即可。方法:代理IP、本地IP数据库(使用IP池),比如使用机灵代理,千万级的IP池,更换IP更有保障。


    4.设置cookies


    cookie其实是储存在用户终端的某些被加密的数据,一些网站通过cookies来识别用户身份,假如某个访问总是高频率地发请求,很可能会被网站注意到,被嫌疑为网络爬虫,这时候网站就可以通过cookie找到这些访问的用户而拒绝接受其访问。还可以自定义设置cookie策略(防止cookie rejected问题:拒绝写入cookie)或者禁止cookies。


    5.控制时间频率


    规模性集中访问对服务器的影响很大,网络爬虫可以短时间扩大服务器负载。在这里必须注意的是:设定下载时间间隔的范围控制,时间间隔过长,无法满足短时间大规模抓取的要求,等待的时间过短则很有可能被拒绝访问。


    在之前“从url获取HTML”的方法里,针对httpGet的配置设置了socket超时和连接connect超时,其实这里的时长不是绝对的,关键在于目标网站对网络爬虫的控制。另外,在scrapy爬虫框架里,专有参数可以设置下载等待时间download_delay,这些参数可以设置在setting.py里,也能设置在spider里。


    上文介绍了五个突破反爬虫的技巧,这里要提醒下,互联网上海量的网站,各个网站的反爬虫机制都不同,不尽是使用上面的反爬虫机制,但是上面介绍的五种是非常常见的,即使没有全部使用,也包含一二。另外,还有许多的反爬虫机制,这就需要根据网站而定了。


相关文章内容简介
推荐阅读
  • 11 2019-08
    爬虫大规模采集需要IP代理配合

    爬虫大规模采集需要IP代理配合,不然一爬取就被封,根本使无法采集的,而IP代理可以切换不同的IP地址,起到很好的防封作用。对于大规模爬虫来说,效率是最核心的问题,没有效率,就没有

  • 02 2019-06
    自己搭IP代理池能用么?

    自己搭IP代理池能用么?每个项目需要使用的代理IP数量不同,一般来说像做营销推广的,换IP换账号发帖,或者问答等,这些需要的IP量相对来说是比较少,而类似于刷票,刷单这些,需求的IP

  • 22 2019-03
    如何获得大量的IP资源?分享几种获取IP资源的方式

    IPV4的IP地址早分完了,目前IP资源还是非常紧缺的,因此IP地址一直是各种平台最重要的风控方案之一。面对攻击,最主流防控措施之一就是封IP,企业根据黑IP库、同IP发起请求次数、密码错误

  • 24 2019-04
    最新ip代理软件都有哪些用途?

    最新ip代理软件都有哪些用途?主要是用于网络上的IP限制场景,解决IP限制问题,或者是认为网络访问慢需要进行加速,又或者是用于其他的一些地方,我们一起去看看这最新ip代理软件的用途

  • 08 2019-04
    爬虫配代理IP和UA爬取顺利,绕过反爬虫机制

    网上对于爬虫采集的教程或者是一些讨论都比较多的,如果我们要去爬取一个网站的信息,大家可能最先想的是对方有什么反爬虫机制。是的,这个问题是非常关键的,而且还是必须要解决的。

  • 09 2019-05
    爬虫代理可以提高爬取信息效率

    爬虫代理可以提高爬取信息效率,绝大多数目标网站都具有反爬虫策略,最简单的反爬虫策略包括限制单位时间内同一ip的访问次数,或同一个登陆账户的访问次数(通过cookies实现)。例如新浪

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961