您的位置:首页 > 新闻资讯 >文章内容
爬虫效率太慢,使用多进程效果怎么样?
来源:互联网 作者:admin 时间:2019-02-26 16:05:24

  当我们想要提高爬虫的爬取效率时,可以使用多进程,多线程,协程等,那么使用哪种方法比较好呢?今天先跟小编来了解下关于多进程,进程创建方法,以及多进程的优缺点。


  一、什么是进程


  最直观的就是一个个pid,官方的说法就:进程是程序在计算机上的一次执行活动。


  代码中的进程是指没有运行之前,称之为程序,程序运行起来就是一个进程,如果只有一个进程,称之为主进程。如果通过这个进程创建了其他进程,称之为子进程。


  二、进程创建


  1.面向过程


爬虫效率太慢,使用多进程效果怎么样?


  2.面向对象


爬虫效率太慢,使用多进程效果怎么样?


  3.进程之间是否共享局部变量:不共享局部变量


  4.进程之间是否共享全局变量:不共享全局变量


  5.进程池


爬虫效率太慢,使用多进程效果怎么样?


  三、多进程的优缺点


  优点:就是稳定性高,因为一个子进程崩溃了,不会影响主进程和其他子进程。(当然主进程挂了所有进程就全挂了,但是Master进程只负责分配任务,挂掉的概率低)著名的Apache最早就是采用多进程模式。


  缺点:创建进程的代价大,在Unix/Linux系统下,用fork调用还行,在Windows下创建进程开销巨大。另外,操作系统能同时运行的进程数也是有限的,在内存和CPU的限制下,如果有几千个进程同时运行,操作系统连调度都会成问题。


  上文介绍了多进程的一些基本知识。在多核CPU上,可以运行多个进程(数量与CPU核心数相同),充分利用多核CPU。由于系统总的进程数量十分有限,因此操作系统调度非常高效。


相关文章内容简介
推荐阅读
  • 15 2020-06
    爬虫如何选择使用代理ip

    作为网络爬虫来讲,重要的来源于数据信息采集,随着互联网大数据的机灵发展,网络爬虫也是需要一直提升技术来适应全面更新的要求,那么选择稳定的代理ip是爬虫的前提,稳定极速的代理i

  • 26 2019-03
    代理ip地址的选择方法和所需时间

    现在由于经济和其他方面的快速发展,不仅仅是个人企业,也需要这种大数据的支持,然后根据自己获得的这些数据制定适合自己的营销方案,当然关于这种数据的搜集还是需要这种代理IP,现

  • 11 2019-09
    大数据时代 代理IP使用前景

    网络发展到现在,一些过往只能够在科幻电影里面发生的场景,在现实生活中也能够实现了。比如通过网络,根据某几个特征去进行信息筛选,获得目标。这项工作现在通过使用代理IP,只要掌

  • 10 2019-06
    切换IP地址返回错误码

    切换IP地址返回错误码,比如出现806和807错误码,这是怎么回事呢?有时候电脑转换IP时会出现806、807等错误问题,通常是由本地网络或或本地路由器导致的,那么如何解决呢?

  • 05 2019-07
    国内最好的爬虫代理有什么特点?

    国内最好的爬虫代理有什么特点?网络爬虫想要快速的完成要采集的数据,爬虫代理是少不了的,有了爬虫代理,能够突破网站的访问频率限制,速度是蹭蹭上涨的。

  • 19 2019-03
    怎么使用动态代理IP加快爬虫的速度?

    现在我们进行数据的采集工作越来越难爬取了,这是因为大多数网站都有自己的防爬策略,而且一些防爬策略非常严格,简直无从下手,这就需要借助其他的一些助力了,比如使用动态代理IP。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部