您的位置:首页 > 新闻资讯 >文章内容
代理IP和多线程可以提升selenium抓取数据的速度
来源:互联网 作者:admin 时间:2019-04-19 16:19:36

  代理IP和多线程可以提升selenium抓取数据的速度,本来在使用selenium浏览器渲染技术爬取网站信息时,速度是很慢的。而且一般需要用到这种技术爬取的网站,反爬技术都比较厉害,对IP的访问频率应该有相当的限制。所以,如果想提升selenium抓取数据的速度,可以从两个方面出发:


  1.提高抓取频率,出现验证信息时进行破解,一般是验证码或者用户登录。


  2.使用多线程+代理IP,这种方式,需要电脑有足够的内存和充足稳定的代理IP。


代理IP和多线程可以提升selenium抓取数据的速度


  另外,我们在这过程中要注意:


  1.电脑内存要够大。因为chrome占内存较大,在并发度很高的情况下,容易造成浏览器崩溃,也就是程序崩溃。


  2.代理IP最好是稳定的固定IP,不要选动态IP。我们常用的爬虫IP是高匿名动态IP,是通过拨号动态产生的,时效性很短,一般在1~3分钟。对于scrapy这种并发度很高,又不需要登录的爬虫来说,非常合适,但是在浏览器渲染类爬虫中并不适用。


  而且还要注意代理IP的速度,因为selenium爬虫采用的是浏览器渲染技术,本身速度就很慢。如果选择的代理IP速度较慢,就会大大增加爬取的时间。


  3.在程序结束时,调用browser.quit()清除浏览器缓存。


  我们使用代理IP和多线程可以提升selenium抓取数据的速度,大家可以考虑下的,或者自己去测试下效果。


相关文章内容简介
推荐阅读
  • 02 2019-04
    营销补量工具--代理IP真的有效果吗?

    是否可以把代理IP使用在营销补量上面?这样做会不会有效果呢?现在除了电商行业以外,大部分行业都需要做一些补量的工作通过补量工作,可以很有效率的提高网站的转换率。效果有用,但

  • 15 2021-01
    动态代理IP效果怎么样

    现在很多工作都需要代理IP的帮助来完成,例如营销、爬取数据等,利用代理IP来把本机的IP换掉,这样才能解决IP限制问题,继续进行访问。那么,动态代理IP效果怎么样?

  • 22 2020-10
    代理ip地址怎么使用

    ip是上网需要唯一的身份地址,而代理ip就是我们上网过程中的一个中间平台,是由你的电脑先访问代理ip,之后再由代理ip访问你点开的页面,所以在这个页面的访问记录里留下的是就是代理ip

  • 25 2020-02
    用代理ip刷单有什么技巧

    其实刷单行为是很多商家都用过的,也是一直存在的,都会不同程度刷单。但是刷单是平台不允许的,如果被发现会被处罚,因此刷单是需要技巧的。

  • 10 2019-06
    http代理提取后用不了咋回事

    http代理提取后用不了咋回事?关于http代理不能用这个问题,有一小部分用户可能会遇上,这究竟是怎么回事呢?为何提取出来的http代理无法使用呢?

  • 29 2019-05
    换IP刷点击量的软件

    换IP刷点击量的软件有效果吗?做网站优化的人都知道,网站的实际内容是你网络优化策略的一个重要的因素,如果你想你的网站能在搜索结果中排得靠前,就必须在你的网站中有实际的内容,

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部