您的位置:首页 > 新闻资讯 >文章内容
爬虫采用代理IP突破网站限制
来源:互联网 作者:admin 时间:2019-06-27 11:24:33

  爬虫采用代理IP突破网站限制,实现高频爬取!虽然不是所有网站都会监控流量来源,但是一些运行良好的网站需要考虑数据安全性和核心竞争力,才会对流量进行监控,防止爬虫的高频率抓取导致核心数据外泄。


  这部分网站一般是通过IP来识别爬虫,当同个IP在一段时间内请求明显高于人访问网页的速度时,会判定为爬虫请求从而对该请求的IP进行短期或长期封杀。


  那这时候就需要使用代理来绕过对IP的监控或封杀。在网上能找到一些提供免费代理IP的平台,不过亲测极其不稳定,通常100个里只有个别能用。


爬虫采用代理IP突破网站限制


  所以真正的想用代理IP来做爬虫,还是找付费的比较好,推荐机灵代理。通常爬虫用途可以买动态IP:平台提供一个API,每次刷新请求会得到一个或一堆有效期比较短的IP,然后从这些IP里挑选来代理请求,失效时重新生成可用的IP即可。


  我写的爬虫是node里跑的,这里不得不提的是,在js里非常流行的axios请求库亲测并不能实现代理请求(也许是我姿势不对),参考网上教程需要使用request这个请求库(然而并不好用,API并不是流行的Promise方式)


  所以我在逻辑代码里是这样实现的,首先封装一个请求函数,封装过后的请求函数就暴露了一个统一的request方法,使用时候只需要request(url)即可。


  从代码里也可以看到:当代理有效时会用代理,当代理无效、超时或其他任何错误时会返回正常的请求,这也是降级保障了爬虫代码的健壮性。


  在使用机灵代理获取的代理IP时,超时时间是个需要不断调整的设置。超时太短了会导致代理不可用的概率提高,而超时太长则会影响整个爬虫的速度。


  比如我给客户跑的这个爬虫,不使用代理时跑完需要4个小时,而如果使用代理,每次请求的时间就加长了,在设置2000毫秒的超时下,整个任务跑下来需要翻2倍的时间。


  但是很多网站都采取了IP限制的,爬虫采用代理IP突破网站限制,这样比较安全,对方也不会封IP,否则分分钟被封到生不如死呢。


相关文章内容简介
推荐阅读
  • 20 2019-07
    分布式ip代理池怎么搭建?

    分布式ip代理池怎么搭建?爬虫程序的正常运行,这是需要大量的ip资源来维持的,如果没有这些ip资源,也就是ip代理池,爬虫程序将要停止工作或者极大的降低抓取的速度,因此ip代理池是非

  • 11 2019-11
    HTTP协议特性

    HTTP代理IP支持多少种协议?HTTP代理IP一般都支持两种协议HTTP和HTTPS协议。那么,HTTP协议是什么?它有什么特性呢?代理IP下面就为大家进行介绍。

  • 22 2019-05
    IP代理的适用范围比网游加速器广

    IP代理的适用范围比网游加速器广,虽然从原理上来说IP代理的原理和网游加速器的原理其实都是一样的,网友加速和IP代理都是通过第三方的服务器实现的。

  • 13 2020-04
    怎样选择代理ip软件

    一般我们都是遇到了需要大量换ip或者是长时间需要换ip才会用到换ip软件,因为很多换ip软件其实都是需要付费的。

  • 03 2020-06
    大数据时代的代理知识

    大数据时代,如果你还对于网络数据的获取与使用搞不太清楚,那么今天介绍的爬虫操作就非常值得参考了。

  • 26 2019-10
    免费代理IP完全不能用?

    免费IP虽然网上一大把,看着数量非常多,但是因为质量的原因,如果是用于工作方面的以及比较私人的业务,大家都会更加倾向去购买付费的代理IP。可是,免费IP也并不是一点用处也没有,我

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部