您的位置:首页 > 新闻资讯 >文章内容
爬虫效率太慢,使用多进程效果怎么样?
来源:互联网 作者:admin 时间:2019-02-26 16:05:24

  当我们想要提高爬虫的爬取效率时,可以使用多进程,多线程,协程等,那么使用哪种方法比较好呢?今天先跟小编来了解下关于多进程,进程创建方法,以及多进程的优缺点。


  一、什么是进程


  最直观的就是一个个pid,官方的说法就:进程是程序在计算机上的一次执行活动。


  代码中的进程是指没有运行之前,称之为程序,程序运行起来就是一个进程,如果只有一个进程,称之为主进程。如果通过这个进程创建了其他进程,称之为子进程。


  二、进程创建


  1.面向过程


爬虫效率太慢,使用多进程效果怎么样?


  2.面向对象


爬虫效率太慢,使用多进程效果怎么样?


  3.进程之间是否共享局部变量:不共享局部变量


  4.进程之间是否共享全局变量:不共享全局变量


  5.进程池


爬虫效率太慢,使用多进程效果怎么样?


  三、多进程的优缺点


  优点:就是稳定性高,因为一个子进程崩溃了,不会影响主进程和其他子进程。(当然主进程挂了所有进程就全挂了,但是Master进程只负责分配任务,挂掉的概率低)著名的Apache最早就是采用多进程模式。


  缺点:创建进程的代价大,在Unix/Linux系统下,用fork调用还行,在Windows下创建进程开销巨大。另外,操作系统能同时运行的进程数也是有限的,在内存和CPU的限制下,如果有几千个进程同时运行,操作系统连调度都会成问题。


  上文介绍了多进程的一些基本知识。在多核CPU上,可以运行多个进程(数量与CPU核心数相同),充分利用多核CPU。由于系统总的进程数量十分有限,因此操作系统调度非常高效。


相关文章内容简介
推荐阅读
  • 06 2019-04
    通过get请求是否能爬取代理IP使用?

    学习爬虫之后,知道网站有限制,为了突破防线,需要使用ip代理的,但我们只是练习下,没有必要花钱购买代理ip的,可否自己抓取代理ip使用呢?

  • 22 2019-03
    代理IP在Python中如何使用?

    上文刚刚讲到对于代理IP资源的获取方法,如果选择使用代理精灵,这效果还是不错的,可以先进行测试使用的。那么代理IP在Python如何使用的呢?

  • 15 2019-03
    网络爬虫哪些数据需要进行伪装?IP伪装可以使用代理IP

    网络爬虫为了完成去目标网站抓取信息的任务,是必须要先进行伪装的,否则是拿不到信息的。关于网络爬虫的伪装,唯一的要求就是跟真实用户获取数据一样,若没有达到这个效果,自然也就

  • 11 2019-06
    HTTP协议应用场景之一:网络爬虫用HTTP代理获利

    如果我们能熟悉,并掌握HTTP协议的一些应用场景,那么我们可以更好的利用HTTP代理来达成目的。下面介绍下HTTP常见的9个场景,在协议格式中提到的各方法、响应码、头部、包体编码方式都与

  • 17 2019-06
    爬虫下载网页会涉及ip限制问题

    爬虫下载网页会涉及ip限制问题,如果能解决这个问题,爬虫的工作会顺利很多的,那么对于ip限制,可以采取什么方法来处理呢?

  • 18 2019-04
    封禁IP无差别反爬,但换个IP还是可以突破的

    封禁IP无差别反爬,但换个IP还是可以突破的,就是这么简单,这也就是为什么爬虫都需要使用代理IP的原因。

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961