您的位置:首页 > 新闻资讯 >文章内容
scrapy-redis分布式爬虫的基础组成
来源:互联网 作者:admin 时间:2019-02-02 09:09:00

    大数据时代下,人类社会的数据正以前所未有的速度增长,传统的获取数据的方式如问卷调查、访谈法等,其样本容量小、信度低、且受经费和地域范围所限,因而收集的数据往往无法客观反映研究对象,有着较大的局限性。于是许多企业都使用爬虫来获取到大量的信息,并通过分析挖掘出有价值的信息。


    但如今,信息量如此之大,如何获取大量的数据呢?可以使用分布式爬虫,今天小编给大家介绍下scrapy-redis分布式爬虫的基础组成


scrapy-redis分布式爬虫的基础组成


    1.scrapy_redis


    scrapy-redis是为了更方便地实现scrapy分布式爬取,而提供了一些以redis数据库为基础的组件。


    scrapy-redis提供了维持待爬取url的去重以及储存requests的指纹验证。原理是:redis维持一个共同的url队列,各个不同机器上的爬虫程序获取到的url都保存在redis的url队列,各个爬虫都从redis的url队列获取url,并把数据统一保存在同一个数据库里面。


    2.消息队列


    MQ全称为MessageQueue,是一种分布式应用程序的的通信方法,消息发送后可以立即返回,由消息系统来确保消息的可靠传递。


    它是消费-生产者模型的一个典型的代表,producer往消息队列中不断写入消息,而另一端consumer则可以读取或者订阅队列中的消息。


    消息生产者只管把消息发布到MQ中而不用管谁来取,消息消费者只管从MQ中取消息而不管是谁发布的。


    3.RabbitMQ


    RabbitMQ是MQ产品的典型代表,是一款基于AMQP协议可复用的企业消息系统。业务上,可以实现服务提供者和消费者之间的数据解耦,提供高可用性的消息传输机制,在实际生产中应用相当广泛。


    4.scrapy_rabbitmq分布式


    Scrapy-rabbitmq-link是可以让你从RabbitMQ消息队列中取到URL并且分发给Scrapyspiders的组件。


    5.celery初步


    Celery用消息通信,通常使用中间人(Broker)在客户端和程序间斡旋。这个过程从客户端向队列添加消息开始,之后中间人把消息派送给程序。


    上文介绍了scrapy-redis分布式爬虫的基础组成,scrapy-redis的分布式系统,用于分布式爬虫URL队列的存储和去重队列的存储。当然,对于更大型的爬虫系统,或者对于非scrapy框架的爬虫,可以选择其它的方案替代scrapy和scrapy-redis,比如可以使用RabbitMQ消息队列代替Redis。


相关文章内容简介
推荐阅读
  • 03 2019-07
    支持API批量提取的IP代理

    找家支持API批量提取的IP代理,能够直接提取效率会快很多,那么市场上有没有呢?

  • 29 2019-08
    用独享IP好在哪里?

    代理IP根据类型的不同,也有不同的分类,之前一直抱怨免费代理IP不稳定的网友,自从换用了独享IP代理之后,就再也没吐槽过了。这独享IP的魔力就这么巨大吗?我们一起来看看它有什么好处。

  • 12 2019-06
    网上扫描的代理并不稳定

    网上扫描的代理并不稳定,但是不用给钱,所以很多人都愿意去使用的。不过很多项目都使用不了这网上扫描的代理,下面我们以数据采集为例:

  • 22 2019-05
    IP被封最快的破解方法是用代理IP

    IP被封最快的破解方法是用代理IP,如果等平台把你被封的IP进行解封,最快也要几个小时,或者24小时,或者几天,甚至于更久,这样你就无法在短期内进行使用了。因此,IP被封最快的破解方

  • 27 2019-05
    选用代理IP千万不要以价格为准

    选用代理IP千万不要以价格为准,这是为什么呢?很多朋友在购物时都是以价格为主要因素,就拿代理IP来说,有免费的就不用收费的,有便宜的就不用更贵的。这样虽然降低了成本,但同时也

  • 22 2019-07
    http代理哪家的质量高?

    http代理哪家的质量高?既然要使用http代理,自然是想个好用的,尤其是工作需要使用http代理,因为http代理质量高,工作效率也就高,都不想加班是吧。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部