您的位置:首页 > 新闻资讯 >文章内容
代理IP和多线程可以提升selenium抓取数据的速度
来源:互联网 作者:admin 时间:2019-04-19 16:19:36

  代理IP和多线程可以提升selenium抓取数据的速度,本来在使用selenium浏览器渲染技术爬取网站信息时,速度是很慢的。而且一般需要用到这种技术爬取的网站,反爬技术都比较厉害,对IP的访问频率应该有相当的限制。所以,如果想提升selenium抓取数据的速度,可以从两个方面出发:


  1.提高抓取频率,出现验证信息时进行破解,一般是验证码或者用户登录。


  2.使用多线程+代理IP,这种方式,需要电脑有足够的内存和充足稳定的代理IP。


代理IP和多线程可以提升selenium抓取数据的速度


  另外,我们在这过程中要注意:


  1.电脑内存要够大。因为chrome占内存较大,在并发度很高的情况下,容易造成浏览器崩溃,也就是程序崩溃。


  2.代理IP最好是稳定的固定IP,不要选动态IP。我们常用的爬虫IP是高匿名动态IP,是通过拨号动态产生的,时效性很短,一般在1~3分钟。对于scrapy这种并发度很高,又不需要登录的爬虫来说,非常合适,但是在浏览器渲染类爬虫中并不适用。


  而且还要注意代理IP的速度,因为selenium爬虫采用的是浏览器渲染技术,本身速度就很慢。如果选择的代理IP速度较慢,就会大大增加爬取的时间。


  3.在程序结束时,调用browser.quit()清除浏览器缓存。


  我们使用代理IP和多线程可以提升selenium抓取数据的速度,大家可以考虑下的,或者自己去测试下效果。


相关文章内容简介
推荐阅读
  • 26 2019-03
    代理ip服务器提供商该如何选择?

    现如今越来越多的拨号宽带变成了代理服务器,而且服务器的价格要比宽带更为便宜,其网速在运营过程中更加高效,一般大品牌的服务器提供商会为大家提供一个免费的注册账号,让大家测试

  • 16 2019-05
    普通人怎么使用http代理?

    普通人怎么使用http代理?在平时的生活和工作中,我们经常会遇到更换IP的问题。每每这个时候就是最令人头疼的时候了。这就是传说中的“书到用时方很少”。其实作为我们普通人,也无需把

  • 12 2019-03
    如何应对网站的反爬虫?写爬虫的注意事项

    由于网站有多种反爬虫,因此这要求我们在写爬虫时,要注意各种可能会遇到的问题,否则我们的爬虫绕不过去,最终也就拿不到数据了,这样也就毫无意义了。

  • 20 2019-03
    怎么设置代理服务器ip,实现自动更换IP的效果

    想要使用代理服务器更换IP地址,大家是从哪里找到代理服务器的?代理服务器是否能实现自动更换IP的效果?大家可以带着问题,跟小编去了解下。

  • 25 2019-06
    使用最新代理IP有什么好处

    使用最新代理IP有什么好处?大部分网络用户都是使用固定的ip地址,如果要使用动态的ip,还需要使用代理IP,最好是最新代理IP,这样质量更高。那么使用最新代理IP有什么好处呢?

  • 21 2019-12
    抢购就用代理IP!

    抢购就用代理IP!如果你对代理IP的理解认知还停留在,代理IP可以用来访问我们被限制的网站,那就OUT了,要知道现在是网络科技时代,网络瞬息万变,所以我们也要跟上网络的发展,时代的脚

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部