您的位置:首页 > 新闻资讯 >文章内容
scrapy-redis分布式爬虫的基础组成
来源:互联网 作者:admin 时间:2019-02-02 09:09:00

    大数据时代下,人类社会的数据正以前所未有的速度增长,传统的获取数据的方式如问卷调查、访谈法等,其样本容量小、信度低、且受经费和地域范围所限,因而收集的数据往往无法客观反映研究对象,有着较大的局限性。于是许多企业都使用爬虫来获取到大量的信息,并通过分析挖掘出有价值的信息。


    但如今,信息量如此之大,如何获取大量的数据呢?可以使用分布式爬虫,今天小编给大家介绍下scrapy-redis分布式爬虫的基础组成


scrapy-redis分布式爬虫的基础组成


    1.scrapy_redis


    scrapy-redis是为了更方便地实现scrapy分布式爬取,而提供了一些以redis数据库为基础的组件。


    scrapy-redis提供了维持待爬取url的去重以及储存requests的指纹验证。原理是:redis维持一个共同的url队列,各个不同机器上的爬虫程序获取到的url都保存在redis的url队列,各个爬虫都从redis的url队列获取url,并把数据统一保存在同一个数据库里面。


    2.消息队列


    MQ全称为MessageQueue,是一种分布式应用程序的的通信方法,消息发送后可以立即返回,由消息系统来确保消息的可靠传递。


    它是消费-生产者模型的一个典型的代表,producer往消息队列中不断写入消息,而另一端consumer则可以读取或者订阅队列中的消息。


    消息生产者只管把消息发布到MQ中而不用管谁来取,消息消费者只管从MQ中取消息而不管是谁发布的。


    3.RabbitMQ


    RabbitMQ是MQ产品的典型代表,是一款基于AMQP协议可复用的企业消息系统。业务上,可以实现服务提供者和消费者之间的数据解耦,提供高可用性的消息传输机制,在实际生产中应用相当广泛。


    4.scrapy_rabbitmq分布式


    Scrapy-rabbitmq-link是可以让你从RabbitMQ消息队列中取到URL并且分发给Scrapyspiders的组件。


    5.celery初步


    Celery用消息通信,通常使用中间人(Broker)在客户端和程序间斡旋。这个过程从客户端向队列添加消息开始,之后中间人把消息派送给程序。


    上文介绍了scrapy-redis分布式爬虫的基础组成,scrapy-redis的分布式系统,用于分布式爬虫URL队列的存储和去重队列的存储。当然,对于更大型的爬虫系统,或者对于非scrapy框架的爬虫,可以选择其它的方案替代scrapy和scrapy-redis,比如可以使用RabbitMQ消息队列代替Redis。


相关文章内容简介
推荐阅读
  • 12 2019-10
    使用代理IP的常见疑惑解答

    关于代理IP的使用问题,发现在网上还是有很多人存在疑惑的,经常看到在百度知道、知乎上面有人发问。机灵代理搜集了一些出现频率比较高的问题,来为大家进行解答。

  • 26 2019-06
    这类代理IP效率太低了不能用

    这类代理IP效率太低了不能用,因为代理IP的有效率影响项目的进程,太差的话会延迟很多的时间,那么哪些代理IP效率太低了不能用呢?

  • 15 2019-04
    不想花钱买优质代理IP,用免费的可以吗?

    不想花钱买优质代理IP,用免费的可以吗?这个估计很难,为什么这么说呢?这是有原因的,首先要考虑的都是效果,其次就是时间问题。

  • 11 2019-03
    Python爬虫使用代理IP可以无限采集吗?

    Python爬虫要想大施拳脚,想必是需要一些辅助的工具,我们最常见到的工具有代理IP,爬虫有了代理IP可以如虎添翼,大大加快工作的效率,因此代理IP对于爬虫来说是一款必备的工具。

  • 25 2019-02
    【新手入门】Python爬虫爬取步骤分析

    网络爬虫的基本理念这里就不讲了,如果大家还没有清楚的,可以先去查一下。本文主要讲Python爬虫爬取步骤分析,很多人都分享了自己爬取的代码,其实新手是看不懂的,一篇的代码看下来,

  • 21 2019-08
    为什么都说独享IP比同享IP好?

    用过代理IP的可能都会有一个疑问,独享IP和同享IP具体有什么不同,如果我只是个人普通使用又或是企业使用,要选择哪一种比较好呢?下面我们来看看这两种IP有什么区别。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部