您的位置:首页 > 新闻资讯 >文章内容
爬虫效率太慢,使用多进程效果怎么样?
来源:互联网 作者:admin 时间:2019-02-26 16:05:24

  当我们想要提高爬虫的爬取效率时,可以使用多进程,多线程,协程等,那么使用哪种方法比较好呢?今天先跟小编来了解下关于多进程,进程创建方法,以及多进程的优缺点。


  一、什么是进程


  最直观的就是一个个pid,官方的说法就:进程是程序在计算机上的一次执行活动。


  代码中的进程是指没有运行之前,称之为程序,程序运行起来就是一个进程,如果只有一个进程,称之为主进程。如果通过这个进程创建了其他进程,称之为子进程。


  二、进程创建


  1.面向过程


爬虫效率太慢,使用多进程效果怎么样?


  2.面向对象


爬虫效率太慢,使用多进程效果怎么样?


  3.进程之间是否共享局部变量:不共享局部变量


  4.进程之间是否共享全局变量:不共享全局变量


  5.进程池


爬虫效率太慢,使用多进程效果怎么样?


  三、多进程的优缺点


  优点:就是稳定性高,因为一个子进程崩溃了,不会影响主进程和其他子进程。(当然主进程挂了所有进程就全挂了,但是Master进程只负责分配任务,挂掉的概率低)著名的Apache最早就是采用多进程模式。


  缺点:创建进程的代价大,在Unix/Linux系统下,用fork调用还行,在Windows下创建进程开销巨大。另外,操作系统能同时运行的进程数也是有限的,在内存和CPU的限制下,如果有几千个进程同时运行,操作系统连调度都会成问题。


  上文介绍了多进程的一些基本知识。在多核CPU上,可以运行多个进程(数量与CPU核心数相同),充分利用多核CPU。由于系统总的进程数量十分有限,因此操作系统调度非常高效。


相关文章内容简介
推荐阅读
  • 18 2019-03
    对于个人来说拉票数量有限,是否可以使用代理IP自动刷票?

    投票这个活动,一直是存在的,常见于朋友圈的投票,也有网络投票。对于个人来说,拉票数量有限,无法获得大量的票数,有些人为了拿到高票数,或许进行各种拉票,甚至刷票,这是怎么办

  • 27 2019-06
    想刷阅读量用代理IP

    想刷阅读量用代理IP,这个刷量在目前来说是比较常见的,有些人是为了让数据好看些,免得被批评;有些人刷量是为了获取广告费等等,总之现今的刷量已经成为常态了。

  • 13 2019-06
    想大量发帖如何突破IP限制

    想大量发帖如何突破IP限制?很多平台为了用户体验,以及自身的利益,很多都是有限制的,例如IP限制,这是比较常见的。

  • 04 2019-06
    Socks代理比其他代理快吗

    Socks代理比其他代理快吗?啥是socks5代理,可能还有很多人都不知道的,来我们简单说说。socks5代理采用socks协议的代理服务器就是SOCKS服务器,是一种通用的代理服务器。

  • 16 2019-07
    自建ADSL拨号代理服务器划算吗?

    自建ADSL拨号代理服务器划算吗?许多人真的是忍受够了免费代理,老是出问题,那么自建ADSL拨号代理服务器怎样呢?成本高吗?是否划算?

  • 07 2019-05
    HTTP代理是透明代理也是非透明代理

    HTTP代理是透明代理也是非透明代理,之所以强调是“透明”代理,也就是说这样的代理对客户端来说是不可见的,并不需要在客户端的浏览器中作关于代理的设置。

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961