您的位置:首页 > 新闻资讯 >文章内容
http代理配合多台主机同时运行,爬取效率成倍增长
来源: 作者:admin 时间:2019-08-09 16:34:50

    http代理配合多台主机同时运行,爬取效率成倍增长!新手可能不知道,在规模采集数据时,如果同一台主机运行的,爬取效率有限;但是多台主机协同爬取,爬取效率必然成倍增长。


    Scrapy单机爬虫中有一个本地抓取队列Queue,这一队列是借助deque模块进行的。假如新的Request生成就会放到队列里面,随后Request被Scheduler调度。之后,Request交给Downloader执行爬取,简单的调度架构如下图所示。


http代理配合多台主机同时运行,爬取效率成倍增长


    如果两个Scheduler同时从队列里面取Request,每个Scheduler都有其对应的Downloader,那么在带宽足够、正常爬取且不考虑队列存取压力的情况下,爬取效率会有什么变化?没错,爬取效率会翻倍。


    这样,Scheduler可以扩展多个,Downloader也可以扩展多个。而爬取队列Queue必须始终为一个,也就是所谓的共享爬取队列。这样才能保证Scheduer从队列里调度某个Request之后,其他Scheduler不会重复调度此Request,就可以做到多个Schduler同步爬取。这就是分布式爬虫的基本雏形,简单调度架构如下图所示。


http代理配合多台主机同时运行,爬取效率成倍增长


    我们需要做的就是在多台主机上同时运行爬虫任务协同爬取,而协同爬取的前提就是共享爬取队列。这样各台主机就不需要各自维护爬取队列,而是从共享爬取队列存取Request。但是各台主机还是有各自的Scheduler和Downloader,所以调度和下载功能分别完成。如果不考虑队列存取性能消耗,爬取效率还是会成倍提高。


    在多台主机上同时运行爬虫任务协同爬取时,是少不了http代理的,因为要突破IP限制,解除采集频率限制。因此,http代理配合多台主机同时运行,爬取效率成倍增长!推荐使用机灵代理!


相关文章内容简介
推荐阅读
  • 27 2019-06
    动态IP不够用怎么办?

    动态IP不够用怎么办?想换个IP地址,但是重启之后IP地址是换了,但是换来换去也就那么几个的,作用不大,这该怎么办呢?动态IP不够用怎么办?

  • 10 2019-12
    上网ip被封怎么办?

    上网ip被封怎么办?在上网的过程中,IP被封相信很多用户都遇到过,这是因为发布了不当信息或者访问频繁,被目标网站检测出,所以IP被封。那么,访问网站IP被封该怎么办?

  • 05 2019-12
    百度贴吧推广IP被封怎么办?

    网络营销工作在不同平台都有不一样的规则,但是有一点通用的是,平台都不允许单一IP屡次重复操作,这样一来,平台就会把这个异常账号给封杀。于是,我们只能够换IP来解决。

  • 26 2019-10
    爬虫实战案例:抓取京东图片

    利用爬虫程序,我们可以实现不同的数据抓取,可以抓取文字信息,也可以抓取音频信息、图片信息等。机灵代理下面带来一个爬虫案例实战分享。

  • 23 2019-05
    爬虫代理ip池使用问题

    爬虫代理ip池使用问题可不少,如果遇到IP有效率低,这使用效果是非常不好的。那么怎么样才能提高IP池的质量呢?我们知道IP池是由大量的IP组成的,尽管互联网上联接了成千上万的服务器和

  • 13 2020-11
    代理IP是不是必不可缺的

    随着互联网快速普及渗透,前沿领域蓬勃发展,我们需要用到互联网的越来越多了,现在不仅仅是工作上、生活也息息相关。与此同时催生了一批以互联网维持生计的职业。爬虫工具则是其中之

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部