您的位置:首页 > 新闻资讯 >文章内容
http代理配合多台主机同时运行,爬取效率成倍增长
来源: 作者:admin 时间:2019-08-09 16:34:50

    http代理配合多台主机同时运行,爬取效率成倍增长!新手可能不知道,在规模采集数据时,如果同一台主机运行的,爬取效率有限;但是多台主机协同爬取,爬取效率必然成倍增长。


    Scrapy单机爬虫中有一个本地抓取队列Queue,这一队列是借助deque模块进行的。假如新的Request生成就会放到队列里面,随后Request被Scheduler调度。之后,Request交给Downloader执行爬取,简单的调度架构如下图所示。


http代理配合多台主机同时运行,爬取效率成倍增长


    如果两个Scheduler同时从队列里面取Request,每个Scheduler都有其对应的Downloader,那么在带宽足够、正常爬取且不考虑队列存取压力的情况下,爬取效率会有什么变化?没错,爬取效率会翻倍。


    这样,Scheduler可以扩展多个,Downloader也可以扩展多个。而爬取队列Queue必须始终为一个,也就是所谓的共享爬取队列。这样才能保证Scheduer从队列里调度某个Request之后,其他Scheduler不会重复调度此Request,就可以做到多个Schduler同步爬取。这就是分布式爬虫的基本雏形,简单调度架构如下图所示。


http代理配合多台主机同时运行,爬取效率成倍增长


    我们需要做的就是在多台主机上同时运行爬虫任务协同爬取,而协同爬取的前提就是共享爬取队列。这样各台主机就不需要各自维护爬取队列,而是从共享爬取队列存取Request。但是各台主机还是有各自的Scheduler和Downloader,所以调度和下载功能分别完成。如果不考虑队列存取性能消耗,爬取效率还是会成倍提高。


    在多台主机上同时运行爬虫任务协同爬取时,是少不了http代理的,因为要突破IP限制,解除采集频率限制。因此,http代理配合多台主机同时运行,爬取效率成倍增长!推荐使用机灵代理!


相关文章内容简介
推荐阅读
  • 12 2019-12
    使用IP代理有什么好处?

    使用IP代理有什么好处?使用IP代理​的好处可以分三点,分别是IP限制问题,安全问题,还有效率问题。IP代理的这三点好处,很多用户都可以使用,我们来看看详情。

  • 06 2019-09
    socks5代理IP是怎么使用的?

    使用代理IP的时候,我们会发现有socks5代理跟http代理,机灵代理发现其实有很多朋友都不知道如何使用socks5代理,甚至把socks5代理IP当成HTTP代理IP来使用,这样完全显示不出socks5代理的优势与特

  • 05 2019-06
    ip代理资源对新媒体运营的影响

    ip代理资源对新媒体运营的影响是怎样的?在新媒体运营中如果有ip代理资源的帮助,这工作起来会更加的有效率,效果也会更好,这是为什么呢?

  • 19 2019-03
    代理模式的通俗解释:中介帮助房子主人卖房子

    代理服务器一般都是代理网络用户去取得网络信息,可以说是网络信息的中转站,我们很多时间都使用到代理服务器,只是我们不知道罢了。通俗来说,代理服务器就相当于一个中间人,也可以

  • 01 2019-09
    HTTP代理是什么?

    代理IP听得多了,但是你真的了解什么是IP代理吗。其实代理也分为不同类型的代理,今天机灵代理为大家讲解动态HTTP代理,一起深度了解这一种代理方式的运行方式。

  • 23 2019-08
    动态IP代理商 要怎么选择

    面对海量的动态IP代理商,我们除了从价格上进行比较之外,有什么指标能够帮助我们很好的选到合适的IP代理呢?下面就由机灵代理为大家分享挑选代理商的一些方法,以供参考。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部