您的位置:首页 > 新闻资讯 >文章内容
代理IP和多线程可以提升selenium抓取数据的速度
来源:互联网 作者:admin 时间:2019-04-19 16:19:36

  代理IP和多线程可以提升selenium抓取数据的速度,本来在使用selenium浏览器渲染技术爬取网站信息时,速度是很慢的。而且一般需要用到这种技术爬取的网站,反爬技术都比较厉害,对IP的访问频率应该有相当的限制。所以,如果想提升selenium抓取数据的速度,可以从两个方面出发:


  1.提高抓取频率,出现验证信息时进行破解,一般是验证码或者用户登录。


  2.使用多线程+代理IP,这种方式,需要电脑有足够的内存和充足稳定的代理IP。


代理IP和多线程可以提升selenium抓取数据的速度


  另外,我们在这过程中要注意:


  1.电脑内存要够大。因为chrome占内存较大,在并发度很高的情况下,容易造成浏览器崩溃,也就是程序崩溃。


  2.代理IP最好是稳定的固定IP,不要选动态IP。我们常用的爬虫IP是高匿名动态IP,是通过拨号动态产生的,时效性很短,一般在1~3分钟。对于scrapy这种并发度很高,又不需要登录的爬虫来说,非常合适,但是在浏览器渲染类爬虫中并不适用。


  而且还要注意代理IP的速度,因为selenium爬虫采用的是浏览器渲染技术,本身速度就很慢。如果选择的代理IP速度较慢,就会大大增加爬取的时间。


  3.在程序结束时,调用browser.quit()清除浏览器缓存。


  我们使用代理IP和多线程可以提升selenium抓取数据的速度,大家可以考虑下的,或者自己去测试下效果。


相关文章内容简介
推荐阅读
  • 17 2019-07
    代理IP不靠谱看看用错了没?

    代理IP不靠谱看看用错了没?百分之九十的人都知道,在使用爬虫多次爬取同一网站时,经常会被网站的IP反爬虫机制给禁掉,为了解决封禁IP的问题通常会使用代理IP。

  • 29 2019-04
    构建代理ip池的IP来源途径

    构建代理ip池的IP来源途径有哪些?使用爬虫程序都免不了出现问题的,有时候爬得正高兴呢,出现了一连串错误信息,查看后发现因为爬取太过频繁,被网站封了ip,那时起就有了构建代理ip池

  • 18 2019-04
    使用爬虫代理的常见问题有哪些?

    使用爬虫代理的常见问题有哪些?大家对爬虫代理的了解有多少呢?在使用爬虫代理的过程中都会遇到哪些问题呢?我们一起来了解下。

  • 12 2019-07
    适合大量抓取的代理IP池

    适合大量抓取的代理IP池,都有哪些呢?出于营销或者各种需求,有很多朋友都需要换IP的软件,或者找IP代理,但是这种IP代理有很多,有没有既好用又低价的IP代理池呢,小编今天给大家带干

  • 24 2019-04
    最新ip代理软件都有哪些用途?

    最新ip代理软件都有哪些用途?主要是用于网络上的IP限制场景,解决IP限制问题,或者是认为网络访问慢需要进行加速,又或者是用于其他的一些地方,我们一起去看看这最新ip代理软件的用途

  • 21 2019-10
    小红书用代理IP刷量

    小红书经过修整后,又重新上线了。作为一个流量比较多的种草平台,小红书是品牌打动年轻一代的一个重要渠道。那么,我们能够如何让账号快速涨粉呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部