您的位置:首页 > 新闻资讯 >文章内容
如何提高爬虫采集效率
来源:互联网 作者:admin 时间:2020-05-07 09:18:39

  大家都知道采集数据是要花时间,可是也不能一直等着,尤其是需要采集大量数据的情况下。那么如何提高爬虫采集效率就是十分关键的,那小编带大伙儿一块去了解如何提高爬虫采集效率问题。

  1.尽可能减少网站访问次数


  单次爬虫的主要把时间消耗在网络请求等待响应上面,所以能减少网站访问就减少网站访问,既减少自身的工作量,也减轻网站的压力,还降低被封的风险。


  第一步要做的就是流程优化,尽量精简流程,一些数据如果可以在一个网页页面内获取而不必非要在多个网页页面下获取,那就只在一个网页页面内获取。


  随后去重,同样是十分重要的手段,一般根据url或者id进行唯一性判别,爬过的就不再继续爬了。


  2.分布式爬虫


  即便把各种法子都用尽了,单机单位时间内能爬的网页数仍是有限的,面对大量的网页页面队列,可计算的时间仍是很长,这种情况下就必须要用机器换时间了,这就是分布式爬虫。


  第一步,分布式并不是爬虫的本质,也并不是必须的,对于互相独立、不存在通信的任务就可手动对任务分割,随后在多个机器上各自执行,减少每台机器的工作量,费时就会成倍减少。


  例如有200W个网页页面待爬,可以用5台机器各自爬互不重复的40W个网页页面,相对来说单机费时就缩短了5倍。


  可是如果存在着需要通信的状况,例如一个变动的待爬队列,每爬一次这个队列就会发生变化,即便分割任务也就有交叉重复,因为各个机器在程序运行时的待爬队列都不一样了——这种情况下只能用分布式,一个Master存储队列,其他多个Slave各自来取,这样共享一个队列,取的情况下互斥也不会重复爬取。scrapy-redis是一款用得比较多的分布式爬虫框架。


相关文章内容简介
推荐阅读
  • 08 2019-11
    线程IP池的使用

    线程IP池要怎么在手机上使用?机灵代理今天来给大家介绍一下这种便捷的使用方式,可以广泛用在手机群控系统上,可以节省很多时间。

  • 08 2020-01
    高质量代理的特点!

    高质量代理的特点!现如今代理IP​应用的行业越来越多,例如各类大数据分析和营销行业都需要使用大量的代理IP来辅助工作的开展,市面上如今那么多的代理IP我们该如何挑选高质量且适合自

  • 16 2019-04
    分布式爬虫缺陷,爬得越快封得也越快,http代理能解决吗?

    分布式爬虫缺陷,爬得越快封得也越快,http代理能解决吗?确实,在网站来说,爬得越快就证明你越有问题,对于这类的爬虫,网站是毫不手软的。

  • 01 2019-04
    高匿名代理ip不管用,还是被封了?

    高匿名代理ip不管用,还是被封了?很多时候我们在使用代理IP的过程中,或许都是会出现这个问题的。当然了,大家第一个想法都是被骗了,这家的产品质量不行。其实有时候并不是商家的原

  • 27 2019-05
    选用代理IP千万不要以价格为准

    选用代理IP千万不要以价格为准,这是为什么呢?很多朋友在购物时都是以价格为主要因素,就拿代理IP来说,有免费的就不用收费的,有便宜的就不用更贵的。这样虽然降低了成本,但同时也

  • 12 2019-02
    如何获取到HTTP代理?代理的匿名程度检测方法

    由于网站有IP限制,若是需要突破IP限制频繁访问,这是需要使用代理,一般可以使用HTTP代理,绕过了IP的限制。那么如何获取到HTTP代理呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部