您的位置:首页 > 新闻资讯 >文章内容
爬虫大规模抓取数据时,学会这几招大大降低风险
来源:互联网 作者:admin 时间:2019-01-19 17:38:51

    现在即使是个小网站,网页数量也不少,更比说一些大型的网站了。通常使用爬虫采集数据,都是找一些有价值的网站,这些网站的防御强,如果想顺利的爬取数据,还需要多学几招突破的方法。


    第一招,使用分布式框架


    分布式爬取的也有很多Githubrepo。原理主要是维护一个所有集群机器能够有效分享的分布式队列。使用分布式爬取还有另外一个目的:大规模抓取,单台机器的负荷很大,况且速度很慢,多台机器可以设置一个master管理多台slave去同时爬取。


    第二招:使用代理IP


    很多网站都有IP限制的,只要是同一个IP,不管怎么换账号也没有用,主要的是换IP。有些网站应对爬虫的策略之一就是直接将IP或者整个IP段都封掉禁止访问,当IP被禁封后,就需要使用代理IP来突破限制了,可以考虑使用机灵代理。


爬虫大规模抓取数据时,学会这几招大大降低风险


    第三招:设置cookies


    cookie其实是储存在用户终端的一些被加密的数据,有些网站通过cookies来识别用户身份,如果某个访问总是高频率地发请求,很可能会被网站注意到,被嫌疑为爬虫,这时网站就可以通过cookie找到这个访问的用户而拒绝其访问。


    但是采集某些网站时cookie是不可或缺的。要在一个网站上持续保持登录状态,需要在多个页面中保存一个cookie。有些网站不要求在每次登录时都获得一个新cookie,只要保存一个旧的已登录的cookie就可以访问。


    第四招:模仿用户行为


    最常见的就是伪装浏览器,修改User-Agent,经常换一换;访问时间间隔设长一点,访问时间设置为随机数;访问页面的顺序也可以随机着来。


    第五招:避开蜜罐


    虽然在进行网络数据采集时用CSS属性区分有用信息和无用信息会很容易(比如,通过读取id和class标签获取信息),但这么做有时也会出问题。如果网络表单的一个字段通过CSS设置成对用户不可见,那么可以认为普通用户访问网站的时候不能填写这个字段,因为它没有显示在浏览器上。如果这个字段被填写了,就可能是机器人干的,因此这个提交会失效。


    这种手段不仅可以应用在网站的表单上,还可以应用在链接、图片、文件,以及一些可以被机器人读取,但普通用户在浏览器上却看不到的任何内容上面。访问者如果访问了网站上的一个“隐含”内容,就会触发服务器脚本封杀这个用户的IP地址,把这个用户踢出网站,或者采取其他措施禁止这个用户接入网站。


    虽然你不太可能会去访问你找到的那些隐含链接,但是在提交前,记得确认一下那些已经在表单中、准备提交的隐含字段的值(或者让Selenium为你自动提交)。


    在爬取数据时难免出现ip被封等情况,这是因为爬虫被限制住了,上文主要总结了一些常见的情况及规避的措施。要想顺利的的采集到数据,那么还是要学会上面的几招突破方法


相关文章内容简介
推荐阅读
  • 13 2019-06
    数据采集离不开代理ip的支持

    数据采集离不开代理ip的支持,因为现在数据产生比较快,我们需要分析一件事情,可能需要分析很多的信息才能挖机到有价值的资料。而要用大量的信息,并不是任你使用的,这需要去一些平

  • 22 2019-05
    用代理服务器节约大量的IP

    用代理服务器节约大量的IP,为什么需要节约IP呢?虽然网络无处不在,连接网络也是需要IP地址的,但是目前尚未能做到设备连接的都是公网IP,尤其是中国,网民数量接近10个亿,IPv4本来也就4

  • 15 2019-04
    高匿代理IP用的好,不怕查水表!

    高匿代理IP用的好,不怕查水表!为什么这样讲呢?大家可能对代理的认识还不深,不太了解的。我们先去了解下代理。

  • 23 2019-03
    更换IP的几种方法,动态转发代理好用吗?

    大家有时候会看到很多别人发的广告,或者是机器发布文章之类的,这些都会有IP的限制。就比如说,论坛的注册,对于同一个IP都会有限制,而且经常使用同一个IP发布信息,很难通过。为了方

  • 23 2019-05
    http代理租用哪家好?

    http代理租用哪家好?现在网络时代,很多时候我们都需要使用到http代理的,如果选择租用,选择哪家的http代理比较好呢?使用http代理的时候,需要选择合适的服务商。但是网络上的服务商非

  • 15 2019-04
    高匿代理ip能防止别人查看你的IP地址吗?

    高匿代理ip能防止别人查看你的IP地址吗?网络确实给我们带来了许多的便利,但是隐患也是有的,如信息的泄露,这信息泄露后对于普通人来说是没有影响的,若是有些人拿来牟利,这对我们

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961