您的位置:首页 > 新闻资讯 >文章内容
爬虫大规模抓取数据时,学会这几招大大降低风险
来源:互联网 作者:admin 时间:2019-01-19 17:38:51

    现在即使是个小网站,网页数量也不少,更比说一些大型的网站了。通常使用爬虫采集数据,都是找一些有价值的网站,这些网站的防御强,如果想顺利的爬取数据,还需要多学几招突破的方法。


    第一招,使用分布式框架


    分布式爬取的也有很多Githubrepo。原理主要是维护一个所有集群机器能够有效分享的分布式队列。使用分布式爬取还有另外一个目的:大规模抓取,单台机器的负荷很大,况且速度很慢,多台机器可以设置一个master管理多台slave去同时爬取。


    第二招:使用代理IP


    很多网站都有IP限制的,只要是同一个IP,不管怎么换账号也没有用,主要的是换IP。有些网站应对爬虫的策略之一就是直接将IP或者整个IP段都封掉禁止访问,当IP被禁封后,就需要使用代理IP来突破限制了,可以考虑使用机灵代理。


爬虫大规模抓取数据时,学会这几招大大降低风险


    第三招:设置cookies


    cookie其实是储存在用户终端的一些被加密的数据,有些网站通过cookies来识别用户身份,如果某个访问总是高频率地发请求,很可能会被网站注意到,被嫌疑为爬虫,这时网站就可以通过cookie找到这个访问的用户而拒绝其访问。


    但是采集某些网站时cookie是不可或缺的。要在一个网站上持续保持登录状态,需要在多个页面中保存一个cookie。有些网站不要求在每次登录时都获得一个新cookie,只要保存一个旧的已登录的cookie就可以访问。


    第四招:模仿用户行为


    最常见的就是伪装浏览器,修改User-Agent,经常换一换;访问时间间隔设长一点,访问时间设置为随机数;访问页面的顺序也可以随机着来。


    第五招:避开蜜罐


    虽然在进行网络数据采集时用CSS属性区分有用信息和无用信息会很容易(比如,通过读取id和class标签获取信息),但这么做有时也会出问题。如果网络表单的一个字段通过CSS设置成对用户不可见,那么可以认为普通用户访问网站的时候不能填写这个字段,因为它没有显示在浏览器上。如果这个字段被填写了,就可能是机器人干的,因此这个提交会失效。


    这种手段不仅可以应用在网站的表单上,还可以应用在链接、图片、文件,以及一些可以被机器人读取,但普通用户在浏览器上却看不到的任何内容上面。访问者如果访问了网站上的一个“隐含”内容,就会触发服务器脚本封杀这个用户的IP地址,把这个用户踢出网站,或者采取其他措施禁止这个用户接入网站。


    虽然你不太可能会去访问你找到的那些隐含链接,但是在提交前,记得确认一下那些已经在表单中、准备提交的隐含字段的值(或者让Selenium为你自动提交)。


    在爬取数据时难免出现ip被封等情况,这是因为爬虫被限制住了,上文主要总结了一些常见的情况及规避的措施。要想顺利的的采集到数据,那么还是要学会上面的几招突破方法


相关文章内容简介
推荐阅读
  • 23 2019-07
    大量采集网页信息需要动态ip代理软件

    大量采集网页信息需要动态ip代理软件,这是因为在频率的采集中,目标网站会进行ip限制的,所有需要使用动态ip代理软件来切换ip地址,从而获取继续访问的权限。

  • 08 2019-02
    如何能找到大量的IP资源呢?这些IP资源的质量如何呢?

    我们使用的代理IP,这其中的IP资源是从哪里来的,毕竟现在IP资源缺乏,如何能找到大量的IP资源呢?这些IP资源的质量如何呢?

  • 01 2019-08
    不用代理ip可以爬数据吗?

    不用代理ip可以爬数据吗?爬虫作为快速爬取的程序,很多人都是会帮爬虫加上代理ip的,这需要加上不少的成本,那么能不能不用代理ip呢?

  • 22 2019-08
    切换IP 除了代理IP还有什么方法?

    在上网的时候,如果我们有切换IP的需要,可以通过什么途径去操作呢?以下为大家推荐4种比较常见的切换IP方式,除了有大家都比较熟悉的用代理IP之外,还有这些操作你可以参考。

  • 31 2019-05
    代理IP的实际用途

    代理IP的实际用途都有哪些?随着人们的生活水准越来越高,各个领域都开始追求效率,所以互联网产品开发也开始注重这一方面,开发出的产品都在往简单易使用的方向发展。代理IP的目的就是让

  • 30 2019-05
    爬虫工程师用代理IP应对反爬虫机制

    爬虫工程师用代理IP应对反爬虫机制,这是比较常见的。反爬虫机制对于爬虫工程师来说并不陌生,可以说爬虫与反爬虫是相爱相杀的,没有爬虫就不存在反爬虫,没有了反爬虫,爬虫也不用发

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961