您的位置:首页 > 新闻资讯 >文章内容
采集数据如何控制爬虫抓取的频率?
来源:互联网 作者:admin 时间:2019-02-26 15:40:53

  采集数据如何控制爬虫抓取的频率?为什么要控制爬虫的抓取频率,这是因为如果爬取太快,会增加网站服务器的负载,而且过快的采集,会被网站检测到,因此为了不被发现,势必要控制爬虫抓取的频率。


  在robot.txt协议里面定义Crawl-delay来确定抓取的频率也是一种网站的通用的做法,对于一般的抓取而言,10到20秒抓取一次是一个比较保险的频率,也有提出10*t的抓取间隔(t是download时间)比较合理。下面来看看具体的方案:


采集数据如何控制爬虫抓取的频率?


  1.最快速的方案-使用HTTP代理


  使用HTTP代理+异步IO,每秒可以处理100左右的HTTP请求(根据机器配置和网络而定)。但是免费的HTTP代理一是需要自己来抓,二是并不稳定。如果使用付费的HTTP代理,这个需要钱了。


  2.更简单的方案-多线程


  每次开2-4个线程来访问页面,也就是同时只能处理2-4个HTTP请求,然后一直跑下去,如果需要爬去的数据量不多,这个是最简单的解决方案。比如处理一次HTTP请求需要200ms,每次处理4个请求,一秒可以抓取20个页面,一天可以抓取20*60*60*24=1728000。


  3.最合适的方案-分布式


  使用多线程+分布式,比如一台机器抓取一天可以抓取172w数据,两台就是344w数据。


  4.最终解决方案-分布式+HTTP代理


  根据之前爬去拉勾网的时实践,同一个IP同时发送4个HTTP请求是不会被ban的,所以一个IP可以保证4个HTTP并发量,如果有10个HTTP代理,每秒就可以获取200个页面,一天可以爬去200*60*60*24=17280000个页面。最好是分布式不使用代理,因为每加一台机器,就相当于多了一个IP。


  具体的一个IP的并发量需要自己测试,不过最好一个IP同时只处理一个HTTP连接。


  上文分析了在采集数据时,如何控制爬虫抓取的频率的问题,最好的方案是使用分布式以及HTTP代理,代理可以使用代理精灵,因为IP可以使用全国的,范围比较广,数量自然多,使用效果也好。


相关文章内容简介
推荐阅读
  • 03 2019-04
    爬虫抢票利用了这些技术,IP限制也拦不住

    普通网民对一些行业不太清楚,也就不知道大流量的底下,其实很多都是爬虫造出来的。爬虫访问也是算浏览量的,不少人也利益爬虫这个特性来刷流量。不过今天不讲刷流量的问题,而是讲下

  • 02 2019-04
    在爬虫中加入代理IP访问就安全了吗?

    我们在使用爬虫进行爬取信息时,当然是想着爬取速度越快越好,这样我们不用等那么久才能拿到这些信息。但是这对网站有很大的影响,网站自然是要限制访问速度,如果超过这个速度,就离

  • 23 2019-04
    怎么找到合适的代理IP访问网站?

    怎么找到合适的代理IP访问网站?都知道现在是数据时代,而获取这些数据去分析的过程中,肯定是会遇到一些问题的,比如各种反爬虫机制,找个合适的代理IP是很重要的应对措施,关键是找

  • 22 2019-04
    利用IP代理突破--获取、测试、使用IP

    利用IP代理突破,这是很多爬虫通常的做法,不过并不是说用就能用了的,因为优质的IP代理并不好找,在找的过程中,我们或许需要先进行获取、测试,再使用IP的。本文主要讲利用IP代理突破

  • 17 2019-03
    防止游戏封号的几种方法,使用代理IP效果更好

    游戏封号对于玩家来说,这是非常严重的问题,如果被封号了,这些辛苦都白费了,关键还没有任何的收获,因此想要玩好游戏不被封号,就要多注意一些封号的信息,避免犯了这些问题而导致

  • 10 2019-05
    代理IP对网络销售有什么帮助?

    代理IP对网络销售有什么帮助?代理IP用于网络销售是有一定的好处,做过电商的朋友都应该了解一些,网络销售需要一个稳定并且强大的平台,才能够更好的运营,大数据时代下,代理IP成为电

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961