您的位置:首页 > 新闻资讯 >文章内容
爬虫效率太慢,使用多进程效果怎么样?
来源:互联网 作者:admin 时间:2019-02-26 16:05:24

  当我们想要提高爬虫的爬取效率时,可以使用多进程,多线程,协程等,那么使用哪种方法比较好呢?今天先跟小编来了解下关于多进程,进程创建方法,以及多进程的优缺点。


  一、什么是进程


  最直观的就是一个个pid,官方的说法就:进程是程序在计算机上的一次执行活动。


  代码中的进程是指没有运行之前,称之为程序,程序运行起来就是一个进程,如果只有一个进程,称之为主进程。如果通过这个进程创建了其他进程,称之为子进程。


  二、进程创建


  1.面向过程


爬虫效率太慢,使用多进程效果怎么样?


  2.面向对象


爬虫效率太慢,使用多进程效果怎么样?


  3.进程之间是否共享局部变量:不共享局部变量


  4.进程之间是否共享全局变量:不共享全局变量


  5.进程池


爬虫效率太慢,使用多进程效果怎么样?


  三、多进程的优缺点


  优点:就是稳定性高,因为一个子进程崩溃了,不会影响主进程和其他子进程。(当然主进程挂了所有进程就全挂了,但是Master进程只负责分配任务,挂掉的概率低)著名的Apache最早就是采用多进程模式。


  缺点:创建进程的代价大,在Unix/Linux系统下,用fork调用还行,在Windows下创建进程开销巨大。另外,操作系统能同时运行的进程数也是有限的,在内存和CPU的限制下,如果有几千个进程同时运行,操作系统连调度都会成问题。


  上文介绍了多进程的一些基本知识。在多核CPU上,可以运行多个进程(数量与CPU核心数相同),充分利用多核CPU。由于系统总的进程数量十分有限,因此操作系统调度非常高效。


相关文章内容简介
推荐阅读
  • 18 2019-05
    测试http代理是否匿名

    测试http代理是否匿名,应该如何测试呢?其实也很简单,可以看看一些数据的。

  • 15 2019-10
    选用代理IP的好处以及注意事项

    互联网的技术不断在革新,技术与人们生活进行融合,带来了便利,其中代理IP也在人们的工作以及生活中派上用场。

  • 22 2019-07
    代理IP时效多久?

    代理IP时效多久?初次接触代理IP的朋友会发现,代理IP的时效比较短,有几分钟的,十几分钟的,或者是半小时的等等。很多用户会问,这个时效是什么意思?是怎么计算的,不同时效的单价有

  • 24 2019-09
    代理IP推荐MySQL索引策略

    MySQL的索引功能使用需要注意什么?怎么才能够优化得更好?下面就由代理IP来跟大家进行介绍。索引是一种特殊的文件(InnoDB 数据表上的索引是表空间的一个组成部分),它们包含着对数据表里所有

  • 18 2019-05
    代理服务器有IP代理和虚拟专用网络

    代理服务器有IP代理和虚拟专用网络,什么使IP代理呢?还有虚拟专用网络是指什么呢?

  • 11 2019-05
    经常用的浏览器能换IP上网吗?

    经常用的浏览器能换IP上网吗?这当然是可以的,很多的软件都是支持更换IP地址,或者是使用代理上网的,浏览器也不例外,那么浏览器怎么换IP上网呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部