您的位置:首页 > 新闻资讯 >文章内容
常见几个突破反爬虫的技巧
来源:互联网 作者:admin 时间:2019-01-14 15:45:31

    写一个爬虫并不难,特别是使用python语言编写更是可以利用各种的库,相对其他语言更加容易些,即使如此,爬虫不能很高效的完成任务的,这是因为网站都有设置了反爬虫,如果不能突破这些反爬虫,是无法顺利的获取到信息的。那么这么反爬虫应该如何突破呢?下面小编为大家介绍几个突破反爬虫的技巧:


    1.利用分布式爬取


    分布式爬取的也有很多Githubrepo。基本原理具体是维护一个所有集群机器能够有效分享的分布式队列。


    运用分布式爬取再有其它一个意义:大规模爬取,单台设备的负荷太大,更何况速度比较慢,多台设备还可以设置一个master管理多台slave去一起爬取。


常见几个突破反爬虫的技巧


    2.修改User-Agent


    最普遍的就是伪装浏览器,修改User-Agent(用户代理)。


    User-Agent是指包含浏览器信息、操作系统信息等的一个字符串,也称作一种特殊的网络协议。服务器根据它判断当前浏览对象是浏览器、邮件客户端还是爬虫。在request.headers里还可以查看user-agent,有关如何分析数据包、查找其User-Agent等信息,这些在前边的文章里提到过。


    具体做法可以把User-Agent的值改为浏览器的办法,乃至可以设置一个User-Agent池(list,数组,字典都可以),存放多个“浏览器”,每一次爬取的时候任意取一个来设置request的User-Agent,这样User-Agent会一直在变化,防止被墙。


    3.修改IP


    其实微博识别的是IP,并不是账号。换句话说,当需要连续爬取许多数据的时候,模拟登录都没有意义。如果是相同IP,不管怎么换账号都没有用,主要的是换IP。


    web server应对爬虫的策略之一就是直接将IP或是整个IP段都封掉禁止访问,当IP被禁封后,转换到其他IP继续访问即可。方法:代理IP、本地IP数据库(使用IP池),比如使用机灵代理,千万级的IP池,更换IP更有保障。


    4.设置cookies


    cookie其实是储存在用户终端的某些被加密的数据,一些网站通过cookies来识别用户身份,假如某个访问总是高频率地发请求,很可能会被网站注意到,被嫌疑为网络爬虫,这时候网站就可以通过cookie找到这些访问的用户而拒绝接受其访问。还可以自定义设置cookie策略(防止cookie rejected问题:拒绝写入cookie)或者禁止cookies。


    5.控制时间频率


    规模性集中访问对服务器的影响很大,网络爬虫可以短时间扩大服务器负载。在这里必须注意的是:设定下载时间间隔的范围控制,时间间隔过长,无法满足短时间大规模抓取的要求,等待的时间过短则很有可能被拒绝访问。


    在之前“从url获取HTML”的方法里,针对httpGet的配置设置了socket超时和连接connect超时,其实这里的时长不是绝对的,关键在于目标网站对网络爬虫的控制。另外,在scrapy爬虫框架里,专有参数可以设置下载等待时间download_delay,这些参数可以设置在setting.py里,也能设置在spider里。


    上文介绍了五个突破反爬虫的技巧,这里要提醒下,互联网上海量的网站,各个网站的反爬虫机制都不同,不尽是使用上面的反爬虫机制,但是上面介绍的五种是非常常见的,即使没有全部使用,也包含一二。另外,还有许多的反爬虫机制,这就需要根据网站而定了。


相关文章内容简介
推荐阅读
  • 28 2019-03
    犯了这些错,多好用的代理IP也挽救不了账号被封

    经常有人在网上问,怎么多开不封号。封号这个问题,是没有办法完全杜绝的,只能降低封号的几率,怎么降低呢?首先要避开封号的原因,比如:

  • 10 2020-06
    如何选择好用的代理ip

    代理IP对于现在的网络数据超时代技术人员来说是一个必不可少的的软件,网络爬虫采集信息数据,网络推广营销,SEO优化排名,网红补量等,代理ip会是一个得力的助手。那么,我们该如何选

  • 11 2019-03
    网站有反采集措施,无法采集信息怎么办

    现在数据这么多,想要获得一些有价值的信息,我们需要对海量的数据进行筛选,而想要获取这些数据,并不是那么简单,因为网站有反采集措施,无法大量的采集数据。这该怎么办呢?

  • 17 2019-04
    用爬虫代理,为什么爬虫程序还被拒了?

    用爬虫代理,为什么爬虫程序还被拒了?关于这一点,大家是否有研究过呢?是的,即使我们使用了爬虫代理,还是有几率会遇上爬虫程序被封的情况,出现这种情况的原因很多,总结为四大类

  • 07 2019-05
    苹果手机如何更换静态IP?

    有时候可能手机获取不了IP地址,导致无法正常连接网络,那么如何更换IP地址呢?如果需要长期挂机,是否能设置静态IP使用?苹果手机如何更换静态IP?

  • 29 2020-05
    使用代理ip被封的原因

    在网络爬虫采集数据信息是必要要用到代理ip,而使用代理ip的最大有点就是突破ip限制,被封的问题。而为什么使用了代理ip还是会经常被封掉?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部