您的位置:首页 > 新闻资讯 >文章内容
单线程没效率?多线程效果更佳,常用的几种线程池
来源:互联网 作者:admin 时间:2019-03-09 14:50:40

  其实单线程远不能满足我们的需求,毕竟单线程的能力有限,不管怎么抓取,让其慢慢积累都是需要时间的,而我们需要的就是抢时间,以更短的时间获得信息。但是单线程的效率太慢了,还不如使用多线程。


  多线程虽然能解决单线程解决不了的事情,但是它也会给你带来额外的问题。比如成千上万甚至上百万的线程时候,你系统就会出现响应延迟、卡机、甚至直接卡死的情况。为什么会出现这样的原因呢?


  这是因为为每个请求创建一个新线程的开销很大:在创建和销毁线程上花费的时间和消耗的系统资源要比花在处理实际的用户请求的时间和资源更多。


单线程没效率?多线程效果更佳,常用的几种线程池


  除了创建和销毁线程的开销之外,活动的线程也消耗系统资源。机灵代理工程师表示,在一个JVM里创建太多的线程可能会导致系统由于过度消耗内存而用完内存或“切换过度”。所以为了防止资源不足,服务器应用程序需要一些办法来限制任何给定时刻处理的请求数目。而线程池为线程生命周期开销问题和资源不足问题提供了解决方案。常用的几种线程池:


  1.ScheduledThreadPool


  周期线程池,创建一个定长线程池,支持定时及周期性任务执行,通过过schedule方法可以设置任务的周期执行。


  2.newFixedThreadPool


  定长线程池,一个有指定的线程数的线程池,有核心的线程,里面有固定的线程数量,响应的速度快。正规的并发线程,多用于服务器。固定的线程数由系统资源设置。核心线程是没有超时机制的,队列大小没有限制,除非线程池关闭了核心线程才会被回收。


  3.newSingleThreadExecutor


  单任务线程池,创建一个单线程化的线程池,它只会用唯一的工作线程来执行任务,保证所有任务按照指定顺序(FIFO, LIFO, 优先级)执行,每次任务到来后都会进入阻塞队列,然后按指定顺序执行。


  4.newCachedThreadPool


  可缓冲线程池,只有非核心线程,最大线程数很大,每新来一个任务,当没有空余线程的时候就会重新创建一个线程,这边有一个超时机制,当空闲的线程超过60s内没有用到的话,就会被回收,它可以一定程序减少频繁创建/销毁线程,减少系统开销,适用于执行时间短并且数量多的任务场景。


  不同的线程池,是有效果的差别的,对于线程池的使用,若是需要抓取大量的数据,单个线程无法满足需求,那么使用多线程是必然的选择,而使用线程池能够起到优化的效果,让爬虫爬取变得更加的简单,配合代理IP使用,效果更佳。


相关文章内容简介
推荐阅读
  • 08 2019-07
    爬虫程序设置ip代理被拒了

    爬虫程序设置ip代理被拒了,这是为何?不是说用了ip代理就能破解这个IP限制的吗?怎么还是被拒绝了呢?

  • 09 2019-05
    爬虫架构的模块和常用几个架构图

    爬虫架构的模块和常用几个架构图介绍!进行数据采集,是少不了爬虫的,采集不同的数据,其架构图也是不一致的,那么常用的爬虫架构图有哪些呢?我们一起去了解下。

  • 24 2019-05
    HTTP代理可以避免IP被封锁

    知己知彼才能百战不殆,因此很多商家都会收集同行信息的,而且情报的准确率也是占领市场的一大关键,我们需要了解我们的竞争对手产品服务等,同时,我们也要了解我们的目标群体的喜好

  • 19 2019-03
    为什么爬虫使用http代理ip还访问失败了

    在获取大量的信息时,他们都说http代理ip非常好用,但是为什么爬虫使用http代理ip还访问失败了?http代理IP不能用来爬虫https,反之应该也是一样的,这就是为什么使用http代理ip失败的原因。

  • 10 2019-04
    爬虫利器代理IP的获取过程--爬取高效IP

    实现爬虫代码不难,关键是要获取信息并不是那么的容易,不是说把爬虫写好来就行了,还要应对网站的反爬虫措施。而使用代理IP是爬虫利器。

  • 21 2019-03
    几十亿的网络爬虫都在干啥?大量的爬虫用代理IP抢票去了

    根据去年的互联网恶意爬虫分析报告,我们才知道实际上,全网每天要遭受几十亿恶意爬虫的攻击。而我们之前只知道互联网中至少有一半的流量是爬虫产生的,现在看来,恶意爬虫越来越多,

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961