您的位置:首页 > 新闻资讯 >文章内容
http代理配合多台主机同时运行,爬取效率成倍增长
来源: 作者:admin 时间:2019-08-09 16:34:50

    http代理配合多台主机同时运行,爬取效率成倍增长!新手可能不知道,在规模采集数据时,如果同一台主机运行的,爬取效率有限;但是多台主机协同爬取,爬取效率必然成倍增长。


    Scrapy单机爬虫中有一个本地抓取队列Queue,这一队列是借助deque模块进行的。假如新的Request生成就会放到队列里面,随后Request被Scheduler调度。之后,Request交给Downloader执行爬取,简单的调度架构如下图所示。


http代理配合多台主机同时运行,爬取效率成倍增长


    如果两个Scheduler同时从队列里面取Request,每个Scheduler都有其对应的Downloader,那么在带宽足够、正常爬取且不考虑队列存取压力的情况下,爬取效率会有什么变化?没错,爬取效率会翻倍。


    这样,Scheduler可以扩展多个,Downloader也可以扩展多个。而爬取队列Queue必须始终为一个,也就是所谓的共享爬取队列。这样才能保证Scheduer从队列里调度某个Request之后,其他Scheduler不会重复调度此Request,就可以做到多个Schduler同步爬取。这就是分布式爬虫的基本雏形,简单调度架构如下图所示。


http代理配合多台主机同时运行,爬取效率成倍增长


    我们需要做的就是在多台主机上同时运行爬虫任务协同爬取,而协同爬取的前提就是共享爬取队列。这样各台主机就不需要各自维护爬取队列,而是从共享爬取队列存取Request。但是各台主机还是有各自的Scheduler和Downloader,所以调度和下载功能分别完成。如果不考虑队列存取性能消耗,爬取效率还是会成倍提高。


    在多台主机上同时运行爬虫任务协同爬取时,是少不了http代理的,因为要突破IP限制,解除采集频率限制。因此,http代理配合多台主机同时运行,爬取效率成倍增长!推荐使用机灵代理!


相关文章内容简介
推荐阅读
  • 30 2019-12
    高匿代理对爬虫的重要性!

    高匿代理对爬虫的重要性!在进行爬虫采集数据的过程当中,我们经常会遇到爬虫被目标网站限制ip访问频率,为了攻克这个难题让爬虫采集数据变得顺利,我们必须使用代理ip来变换爬虫的ip访

  • 24 2020-07
    反爬虫神器——代理ip

    了解爬虫的朋友们都知道,在爬网站的内容的时候并不是程序一跑,内容就会完全按所计划的那样爬下来,很多时候都会遇到网站的阻拦,并不能简单的如愿爬下来,会给你返回一些如404,403或

  • 03 2019-06
    数据采集光有代理IP还不够

    数据采集光有代理IP还不够,还需要突破其他的反爬虫,例如伪造User-Agent和伪造cookies等等。本文就如何解决这个问题总结出一些应对措施,这些措施可以单独使用,也可以同时使用,效果更好

  • 17 2019-06
    高匿代理ip风险系数极低

    高匿代理ip风险系数极低,不同其他的代理ip,用着用着就被发现了,高匿代理ip拥有极高的匿名效果的,这点大家不必担心。

  • 13 2019-11
    服务器出错代码一览

    在上网的时候,出现故障错误的情况,页面会显示出相应的错误代码。不过很多用户一般都不太知道错误代码对应的状态是什么,所以也没办法知道是出了什么问题。

  • 19 2019-03
    反反爬虫使用代理IP时,如何进行IP切换

    反反爬虫需要使用代理IP已经成为当下比较透明的方法了,即使新手初入门也被普及要使用代理IP,这确实是个非常实用,也是必要的工具。不过还是有很多人不知道,反反爬虫使用代理IP时如何

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部