您的位置:首页 > 新闻资讯 >文章内容
scrapy-redis分布式爬虫的基础组成
来源:互联网 作者:admin 时间:2019-02-02 09:09:00

    大数据时代下,人类社会的数据正以前所未有的速度增长,传统的获取数据的方式如问卷调查、访谈法等,其样本容量小、信度低、且受经费和地域范围所限,因而收集的数据往往无法客观反映研究对象,有着较大的局限性。于是许多企业都使用爬虫来获取到大量的信息,并通过分析挖掘出有价值的信息。


    但如今,信息量如此之大,如何获取大量的数据呢?可以使用分布式爬虫,今天小编给大家介绍下scrapy-redis分布式爬虫的基础组成


scrapy-redis分布式爬虫的基础组成


    1.scrapy_redis


    scrapy-redis是为了更方便地实现scrapy分布式爬取,而提供了一些以redis数据库为基础的组件。


    scrapy-redis提供了维持待爬取url的去重以及储存requests的指纹验证。原理是:redis维持一个共同的url队列,各个不同机器上的爬虫程序获取到的url都保存在redis的url队列,各个爬虫都从redis的url队列获取url,并把数据统一保存在同一个数据库里面。


    2.消息队列


    MQ全称为MessageQueue,是一种分布式应用程序的的通信方法,消息发送后可以立即返回,由消息系统来确保消息的可靠传递。


    它是消费-生产者模型的一个典型的代表,producer往消息队列中不断写入消息,而另一端consumer则可以读取或者订阅队列中的消息。


    消息生产者只管把消息发布到MQ中而不用管谁来取,消息消费者只管从MQ中取消息而不管是谁发布的。


    3.RabbitMQ


    RabbitMQ是MQ产品的典型代表,是一款基于AMQP协议可复用的企业消息系统。业务上,可以实现服务提供者和消费者之间的数据解耦,提供高可用性的消息传输机制,在实际生产中应用相当广泛。


    4.scrapy_rabbitmq分布式


    Scrapy-rabbitmq-link是可以让你从RabbitMQ消息队列中取到URL并且分发给Scrapyspiders的组件。


    5.celery初步


    Celery用消息通信,通常使用中间人(Broker)在客户端和程序间斡旋。这个过程从客户端向队列添加消息开始,之后中间人把消息派送给程序。


    上文介绍了scrapy-redis分布式爬虫的基础组成,scrapy-redis的分布式系统,用于分布式爬虫URL队列的存储和去重队列的存储。当然,对于更大型的爬虫系统,或者对于非scrapy框架的爬虫,可以选择其它的方案替代scrapy和scrapy-redis,比如可以使用RabbitMQ消息队列代替Redis。


相关文章内容简介
推荐阅读
  • 28 2019-05
    爬虫代理隐藏IP可以保护安全

    爬虫代理隐藏IP可以保护安全,这一点是毋庸置疑的,IP是上网的必要条件,没有分配IP地址这些上不了网的。上网的设备都会连接唯一的IP地址,就像我们的身份证一样。如果我们能够隐藏这个

  • 20 2019-04
    嫌弃代理IP质量差?机灵代理自建代理服务器

    嫌弃代理IP质量差?机灵代理自建代理服务器,代理IP高质量,你最好的工作伙伴!小编作为一名90后的老网民,曾经遇到过无数次访问网站IP受限的尴尬情况;作为从事网络推广工作的同事小王

  • 06 2019-09
    使用代理IP爬虫有哪些关键点?

    只是用一个IP的话,是无法开展爬虫项目的。因此,爬虫程序员需要通过代理IP建立起一个爬虫IP池,在做爬虫项目的时候,又有哪些可能会发生的问题呢?下面通过一个具体的步骤分享,来解答

  • 12 2019-04
    没有客户?可以用代理IP去爬取用户信息吗?

    没有客户?可以用代理IP去爬取用户信息吗?有时候大家总会接到各类的推销电话,我们的信息是如何泄露出去的呢?这些业务人员是怎么拿到我们的电话信息?下面就以装修行业来说下:

  • 27 2019-05
    http代理服务器的选用技巧

    http代理属于代理服务器中的一个分类,在国内是比较广泛使用的,很多的网络工作人员都需要使用到http代理,不过http代理市场混杂,你知道http代理服务器的选用技巧吗?

  • 13 2019-07
    HTTP代理解开平台限制访问不受限

    HTTP代理解开平台限制访问不受限!我们使用HTTP代理,这是由于很多平台都设置了限制,而HTTP代理就是通往各个平台的钥匙,可以解开IP限制,让你顺畅的获取信息。

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961