您的位置:首页 > 新闻资讯 >文章内容
代理IP和多线程可以提升selenium抓取数据的速度
来源:互联网 作者:admin 时间:2019-04-19 16:19:36

  代理IP和多线程可以提升selenium抓取数据的速度,本来在使用selenium浏览器渲染技术爬取网站信息时,速度是很慢的。而且一般需要用到这种技术爬取的网站,反爬技术都比较厉害,对IP的访问频率应该有相当的限制。所以,如果想提升selenium抓取数据的速度,可以从两个方面出发:


  1.提高抓取频率,出现验证信息时进行破解,一般是验证码或者用户登录。


  2.使用多线程+代理IP,这种方式,需要电脑有足够的内存和充足稳定的代理IP。


代理IP和多线程可以提升selenium抓取数据的速度


  另外,我们在这过程中要注意:


  1.电脑内存要够大。因为chrome占内存较大,在并发度很高的情况下,容易造成浏览器崩溃,也就是程序崩溃。


  2.代理IP最好是稳定的固定IP,不要选动态IP。我们常用的爬虫IP是高匿名动态IP,是通过拨号动态产生的,时效性很短,一般在1~3分钟。对于scrapy这种并发度很高,又不需要登录的爬虫来说,非常合适,但是在浏览器渲染类爬虫中并不适用。


  而且还要注意代理IP的速度,因为selenium爬虫采用的是浏览器渲染技术,本身速度就很慢。如果选择的代理IP速度较慢,就会大大增加爬取的时间。


  3.在程序结束时,调用browser.quit()清除浏览器缓存。


  我们使用代理IP和多线程可以提升selenium抓取数据的速度,大家可以考虑下的,或者自己去测试下效果。


相关文章内容简介
推荐阅读
  • 30 2020-03
    代理ip刷单要注意哪些事项

    随着电子商务的愈发红火,许多人都喜欢使用网购作为新的购物方式,为了可以更好的吸引客户,对自己的店铺进行刷单成为了很多网络平台商家都做过的营销手段,为了提高展示量,刷单是很

  • 07 2019-08
    高质量爬虫代理有助于电商行业

    高质量爬虫代理有助于电商行业!有目共睹如今电商事业发展的如火如荼,但是很多商家以前要为自己添加客源还是需要很多高质量爬虫代理。因为他们平时所用的添加客源的平台功能是非常单

  • 26 2019-03
    代理ip服务器提供商该如何选择?

    现如今越来越多的拨号宽带变成了代理服务器,而且服务器的价格要比宽带更为便宜,其网速在运营过程中更加高效,一般大品牌的服务器提供商会为大家提供一个免费的注册账号,让大家测试

  • 22 2019-05
    维护1000个IP的代理IP池难吗?

    维护1000个IP的代理IP池难吗?其实IP的抓取比较简单,而且免费的代理IP资源也是比较多的,很容易就抓取了。如果说抓取1000个IP,这就是很简单的事情。

  • 15 2020-09
    5种保护ip地址的方法

    局域网中IP地址被别人不小心占用的现象时有发生,严重影响了局域网的管理和维护效率;为了提高局域网管理和维护效率,有必要对随意修改IP地址的行为进行限制。为此,本文为大家提供了5

  • 12 2019-11
    使用代理IP抓包遇到问题如何解决?

    除了用代理IP来进行爬虫,你还知道代理IP能够用在什么地方吗?其实代理IP还能够帮助我们进行抓包工作噢,接下来跟着机灵代理来一起了解一下。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部