您的位置:首页 > 新闻资讯 >文章内容
代理IP和多线程可以提升selenium抓取数据的速度
来源:互联网 作者:admin 时间:2019-04-19 16:19:36

  代理IP和多线程可以提升selenium抓取数据的速度,本来在使用selenium浏览器渲染技术爬取网站信息时,速度是很慢的。而且一般需要用到这种技术爬取的网站,反爬技术都比较厉害,对IP的访问频率应该有相当的限制。所以,如果想提升selenium抓取数据的速度,可以从两个方面出发:


  1.提高抓取频率,出现验证信息时进行破解,一般是验证码或者用户登录。


  2.使用多线程+代理IP,这种方式,需要电脑有足够的内存和充足稳定的代理IP。


代理IP和多线程可以提升selenium抓取数据的速度


  另外,我们在这过程中要注意:


  1.电脑内存要够大。因为chrome占内存较大,在并发度很高的情况下,容易造成浏览器崩溃,也就是程序崩溃。


  2.代理IP最好是稳定的固定IP,不要选动态IP。我们常用的爬虫IP是高匿名动态IP,是通过拨号动态产生的,时效性很短,一般在1~3分钟。对于scrapy这种并发度很高,又不需要登录的爬虫来说,非常合适,但是在浏览器渲染类爬虫中并不适用。


  而且还要注意代理IP的速度,因为selenium爬虫采用的是浏览器渲染技术,本身速度就很慢。如果选择的代理IP速度较慢,就会大大增加爬取的时间。


  3.在程序结束时,调用browser.quit()清除浏览器缓存。


  我们使用代理IP和多线程可以提升selenium抓取数据的速度,大家可以考虑下的,或者自己去测试下效果。


相关文章内容简介
推荐阅读
  • 24 2019-05
    搭建http的透明正向代理

    搭建http的透明正向代理,有知道如何搭建吗?透明和正向代理是指什么?在搭建http的透明正向代理过程中需要注意些什么事项呢?机灵代理小编跟大家一起去看看如果搭建问题。

  • 07 2019-03
    反网络爬虫主要有几种方式

    网站都是有反网络爬虫的,否则还真的无法正常的运营,因为大量的爬虫进入会严重影响网页的访问速度,频繁访问网站会让网站服务器负载过大,还尤其竞争上面的因素,因此不得不防爬虫。

  • 12 2019-08
    代理服服务器设置隐藏真实IP

    代理服服务器设置隐藏真实IP,这个代理去哪找呢?现在几乎每个跟网络有关的软件都提供“代理设置”了,只要简单设置一下就可以把真实的IP隐藏起来,取而代之的是代理IP。现在就说说隐藏

  • 16 2019-05
    代理IP提取IP的格式设置

    代理IP提取IP的格式设置怎样的?我们知道,每次调用API后都会返回一批新的IP,默认输出格式是ip:port,不过代理IP提取IP的格式设置有几种,很多朋友的业务往往需要不一样的输出格式,比如要J

  • 21 2019-06
    代理IP的匿名度会影响稳定性吗

    代理IP的匿名度会影响稳定性吗?我们知道,代理分为透明代理、普通匿名代理和高级匿名代理三种,有很多朋友疑问:高级匿名代理是否比普通匿名代理更稳定,普通匿名是否比透明代理更稳

  • 07 2019-10
    开源代理服务器介绍:Squid篇

    Squid、Privoxy、Varnish、Polipo、Tinyproxy是目前互联网常见的开源web代理服务器,机灵代理将会大家带来这些代理服务器的介绍,这样才有助于我们使用这些服务器,使用代理IP。

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961