您的位置:首页 > 新闻资讯 >文章内容
代理IP和多线程可以提升selenium抓取数据的速度
来源:互联网 作者:admin 时间:2019-04-19 16:19:36

  代理IP和多线程可以提升selenium抓取数据的速度,本来在使用selenium浏览器渲染技术爬取网站信息时,速度是很慢的。而且一般需要用到这种技术爬取的网站,反爬技术都比较厉害,对IP的访问频率应该有相当的限制。所以,如果想提升selenium抓取数据的速度,可以从两个方面出发:


  1.提高抓取频率,出现验证信息时进行破解,一般是验证码或者用户登录。


  2.使用多线程+代理IP,这种方式,需要电脑有足够的内存和充足稳定的代理IP。


代理IP和多线程可以提升selenium抓取数据的速度


  另外,我们在这过程中要注意:


  1.电脑内存要够大。因为chrome占内存较大,在并发度很高的情况下,容易造成浏览器崩溃,也就是程序崩溃。


  2.代理IP最好是稳定的固定IP,不要选动态IP。我们常用的爬虫IP是高匿名动态IP,是通过拨号动态产生的,时效性很短,一般在1~3分钟。对于scrapy这种并发度很高,又不需要登录的爬虫来说,非常合适,但是在浏览器渲染类爬虫中并不适用。


  而且还要注意代理IP的速度,因为selenium爬虫采用的是浏览器渲染技术,本身速度就很慢。如果选择的代理IP速度较慢,就会大大增加爬取的时间。


  3.在程序结束时,调用browser.quit()清除浏览器缓存。


  我们使用代理IP和多线程可以提升selenium抓取数据的速度,大家可以考虑下的,或者自己去测试下效果。


相关文章内容简介
推荐阅读
  • 29 2019-11
    Scrapy框架中间件代理IP设置教程

    Scrapy框架中间件如何设置user agent以及配置代理IP进行伪装?下面我们一起来看看机灵代理带来的教程介绍,看看这两个步骤分别是如何实现的。

  • 26 2019-04
    搭建代理服务器的步骤

    免费的代理IP不好用,想自己搭建代理服务器?那么你知道搭建代理服务器的步骤是怎样的吗?其实搭建的方法也不难,主要是先找个vps服务器,然后再进行搭建的,准备工作和方法如下:

  • 22 2019-10
    用代理IP实在太方便了

    代理IP可能大家平时不怎么需要用到,但是如果你有换IP、爬虫、隐藏IP的需求,那么就不得不要利用代理IP来操作。而且使用过之后,发现,实在是太方便了。

  • 08 2019-05
    找一款靠谱的代理IP资源

    哪里找一款靠谱的代理IP资源?正是由于网络的限制越来越多,而且一些网站在渡过初期之后,会逐渐完善一些规则,加大各种限制,如果想要突破这些限制并不容易,就比如IP限制。

  • 28 2019-10
    平时可以怎么利用代理IP?

    代理IP在我们的日常生活中也能够用到吗?当然可以了,如果你不知道我们平时可以怎么利用代理IP,可以看看下面的推荐。

  • 27 2019-12
    网络营销用代理IP​有什么好处?

    网络营销用代理IP​有什么好处?代理IP是目前换IP比较方便的软件,解决IP限制,例如爬虫、刷屏等,还可以隐藏真实IP。很多新作网络营销的人员对其不太了解,那么,网络营销用代理IP有什么

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部