您的位置:首页 > 新闻资讯 >文章内容
scrapy-redis分布式爬虫的基础组成
来源:互联网 作者:admin 时间:2019-02-02 09:09:00

    大数据时代下,人类社会的数据正以前所未有的速度增长,传统的获取数据的方式如问卷调查、访谈法等,其样本容量小、信度低、且受经费和地域范围所限,因而收集的数据往往无法客观反映研究对象,有着较大的局限性。于是许多企业都使用爬虫来获取到大量的信息,并通过分析挖掘出有价值的信息。


    但如今,信息量如此之大,如何获取大量的数据呢?可以使用分布式爬虫,今天小编给大家介绍下scrapy-redis分布式爬虫的基础组成


scrapy-redis分布式爬虫的基础组成


    1.scrapy_redis


    scrapy-redis是为了更方便地实现scrapy分布式爬取,而提供了一些以redis数据库为基础的组件。


    scrapy-redis提供了维持待爬取url的去重以及储存requests的指纹验证。原理是:redis维持一个共同的url队列,各个不同机器上的爬虫程序获取到的url都保存在redis的url队列,各个爬虫都从redis的url队列获取url,并把数据统一保存在同一个数据库里面。


    2.消息队列


    MQ全称为MessageQueue,是一种分布式应用程序的的通信方法,消息发送后可以立即返回,由消息系统来确保消息的可靠传递。


    它是消费-生产者模型的一个典型的代表,producer往消息队列中不断写入消息,而另一端consumer则可以读取或者订阅队列中的消息。


    消息生产者只管把消息发布到MQ中而不用管谁来取,消息消费者只管从MQ中取消息而不管是谁发布的。


    3.RabbitMQ


    RabbitMQ是MQ产品的典型代表,是一款基于AMQP协议可复用的企业消息系统。业务上,可以实现服务提供者和消费者之间的数据解耦,提供高可用性的消息传输机制,在实际生产中应用相当广泛。


    4.scrapy_rabbitmq分布式


    Scrapy-rabbitmq-link是可以让你从RabbitMQ消息队列中取到URL并且分发给Scrapyspiders的组件。


    5.celery初步


    Celery用消息通信,通常使用中间人(Broker)在客户端和程序间斡旋。这个过程从客户端向队列添加消息开始,之后中间人把消息派送给程序。


    上文介绍了scrapy-redis分布式爬虫的基础组成,scrapy-redis的分布式系统,用于分布式爬虫URL队列的存储和去重队列的存储。当然,对于更大型的爬虫系统,或者对于非scrapy框架的爬虫,可以选择其它的方案替代scrapy和scrapy-redis,比如可以使用RabbitMQ消息队列代替Redis。


相关文章内容简介
推荐阅读
  • 18 2019-04
    应对反爬虫的技巧:使用代理IP池、抓包、验证码的OCR处理

    应对反爬虫的技巧有哪些?通过有使用代理IP池、抓包、验证码的OCR处理等等,我们一起来看看详细得爬虫流程。

  • 14 2019-05
    专业的代理IP具有质量保障

    专业的代理IP具有质量保障,在电子商务这个竞争激烈的行业,价格从不同地点到国家变化很大。在这个没有边界与限制的网络环境中,我们如何跟上价格趋势并保持竞争力?

  • 06 2019-05
    代理IP可以伪装用户真实IP地址

    互联网的飞速发展,越来越多的用户在上网过程中暴露个人的隐私信息,做电商的担心店铺刷单太多而造成被封,做营销的担心投票数不够而排不到好的名次...这个时候使机灵代理进行IP更换就

  • 17 2019-04
    萌新能抓取到微博数据吗?编写Python爬虫要注意什么?

    萌新能抓取到微博数据吗?不管爬取什么数据,都是要使用一些工具辅助的,比如,在爬取之前,需要有一个靠谱的爬虫程序,自己写也行,或者去网上找教程找现成的程序也行,现在网上也有

  • 24 2019-04
    更换IP的基本原理和分类

    认识更换IP的基本原理和分类,有助于我们加深对代理IP的认识,并且能够更好,更合理的使用代理IP的,接下来我们就去了解下关于更换IP的基本原理:

  • 27 2019-03
    国内代理IP品牌哪个更好用?

    现在各种代理IP品牌越来越多,它的覆盖面也越来越广,不仅仅局限于那些大城市,他现在已经覆盖了160多个程序,让更多的人了解到代理IP品牌,并且它的品牌数量也变得越来越多,让很多的

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961