您的位置:首页 > 新闻资讯 >文章内容
代理IP和多线程可以提升selenium抓取数据的速度
来源:互联网 作者:admin 时间:2019-04-19 16:19:36

  代理IP和多线程可以提升selenium抓取数据的速度,本来在使用selenium浏览器渲染技术爬取网站信息时,速度是很慢的。而且一般需要用到这种技术爬取的网站,反爬技术都比较厉害,对IP的访问频率应该有相当的限制。所以,如果想提升selenium抓取数据的速度,可以从两个方面出发:


  1.提高抓取频率,出现验证信息时进行破解,一般是验证码或者用户登录。


  2.使用多线程+代理IP,这种方式,需要电脑有足够的内存和充足稳定的代理IP。


代理IP和多线程可以提升selenium抓取数据的速度


  另外,我们在这过程中要注意:


  1.电脑内存要够大。因为chrome占内存较大,在并发度很高的情况下,容易造成浏览器崩溃,也就是程序崩溃。


  2.代理IP最好是稳定的固定IP,不要选动态IP。我们常用的爬虫IP是高匿名动态IP,是通过拨号动态产生的,时效性很短,一般在1~3分钟。对于scrapy这种并发度很高,又不需要登录的爬虫来说,非常合适,但是在浏览器渲染类爬虫中并不适用。


  而且还要注意代理IP的速度,因为selenium爬虫采用的是浏览器渲染技术,本身速度就很慢。如果选择的代理IP速度较慢,就会大大增加爬取的时间。


  3.在程序结束时,调用browser.quit()清除浏览器缓存。


  我们使用代理IP和多线程可以提升selenium抓取数据的速度,大家可以考虑下的,或者自己去测试下效果。


相关文章内容简介
推荐阅读
  • 26 2019-10
    两个知识点进一步了解HTTP

    HTTP代理,是大家在选择代理IP的时候通过会用到的代理方式。但是大家对HTTP这个网络协议又了解多少呢?下面让机灵代理进一步带领大家走进HTTP的世界。

  • 14 2020-04
    如何获取高质量代理ip

    许多业务都需要利用http代理ip来进行辅助,例如爬虫、批量注册等等,特别是一些高质量的高匿代理ip在爬虫采集中拥有巨大的用处,那么我们可以通过哪些途径去获得优质的代理ip呢?

  • 29 2019-04
    爬虫代理的有效性检测

    爬虫代理的有效性检测,这是一个必要的步骤,如果不进行检测就直接使用,对效率影响比较大。如果是有效率高的爬虫代理还好,如果有效率低,则不停的遇到无效IP。

  • 11 2019-09
    代理IP教你获取静态IP

    随着国内网民数量的增长,IP地址资源是越来越紧张了。IP现在分为2种形式,动态IP跟静态IP,这2种类型也是代理IP在提供服务的可选方案。为什么有些时候我们会需要用到静态IP呢?

  • 25 2019-10
    不同匿名程度的代理IP如何选择?

    想要做到隐藏自己的IP地址,我们需要根据代理IP不同的匿名程度来进行选择才行。不然是无法真正做到隐藏真实IP的,因为根据匿名级别的不同,IP的匿名能力也会不同。

  • 12 2019-10
    怎么有的代理IP重复率这么高 经常导致爬虫被封

    代理IP无论是用在爬虫还是刷量,都能够起到一定的帮助作用,但是有的用户发现某的代理IP用着用着就不行了,检查发现IP的重复率太高了,这是什么情况。我们一下来了解下。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部