您的位置:首页 > 新闻资讯 >文章内容
如何在多个http代理间来回切换,弱化ip被限制风险?
来源:互联网 作者:admin 时间:2019-04-07 17:00:00

在使用爬虫之前,大家都要先考虑一下反爬虫的问题,若不能解决,这是无法实现爬取的。比如,有时候即使使用了http代理,也偶尔会出现错误,这是为什么呢?难度是http代理不好用?还是说使用的人太多了,重复性太高?


其实对于ip限制,我们切换多开代理ip使用的,那么如何在多个http代理间来回切换,弱化ip被限制风险?


突破ip限制的方式,大概有如下几种:


1.和被爬的网站合作,将自己的ip加入白名单。这种方法基本是不可能的,一般上网站不给你爬的,都有各种的限制,除非是动态ip代理商,让你ip加入白名单提取ip。


2.买多台具有公网ip的服务器,每台都布一个爬虫脚本,相当于每个爬虫都有自己的独立ip。这种方式基本上会比较少用的。因为多台服务器成本高,同一爬虫部署多处,维护成本也高(配置、部署、升级、爬虫间相互协调等)。


3.买一些便宜的ip资源,用这些ip做代理(可以是配置很低的且每台机器具有多个公网ip的服务器,只负责网络代理,不跑业务)。不过成本低,脚本无需部署多处。

本文将针对方式3,从原理到实现,一步一步地说明。


http代理原理


当访问某个站点时,网站服务器可以获取到访问者的ip. 服务器可以根据来自该ip的请求情况,做一些限流操作。而代理,是在访问者和站点之间,加一个中间人。访问者向中间人发请求,中间人将该请求转发给站点,最后中间人把站点的响应返回给访问者。在这个过程中站点只能看到代理(中间人)的ip。


无代理的情况: 访问者 站点 (站点看到的是访问者的ip)

有代理的情况: 访问者 代理 站点 (站点看到的是代理的ip)

有动态代理的情况: 访问者 代理1,代理2,代理3,... ] 站点 ( 站点看到的是多个代理的随机ip )


使用 curl 做实验


如何在多个http代理间来回切换,弱化ip被限制风险?

使用代理后,我的ip(对于被访问的站点来说),变成了。 通过以上实验,想必你对代理也有了一定的感知。


用nodejs写一个简单的爬虫


这个爬虫很简单,就是请求,将返回值打印到控制台。

如何在多个http代理间来回切换,弱化ip被限制风险?

的内容如下:

如何在多个http代理间来回切换,弱化ip被限制风险?


至此,单个http代理已经完成了。接下来我们讨论如何动态地在多个http代理间来回切换,以此来弱化被爬的站点对访问者ip的限制。


第一种方案


从外部将ip代理参数传给爬虫脚本,爬虫运行完成后自动退出,再取另一个ip代理参数,重新跑爬虫脚本,以此形式周而复始。

可以写一个这样的shell脚本:

如何在多个http代理间来回切换,弱化ip被限制风险?

其中 PROXY=$p 是定义一个环境变量PROXY, 其值是2个http代理中的任意一个。我们修改一下, 让其使用PROXY环境参数作为其代理:

如何在多个http代理间来回切换,弱化ip被限制风险?

该方案使用bash脚本配合js爬虫脚本一起使用,对于不懂bash的人来说,维护起来有一定的心理负担。接下来,我们使用纯js语言实现。


第二种方案


将方案一中的bash转换为js,内容调整为以下内容:

如何在多个http代理间来回切换,弱化ip被限制风险?

以上介绍了关于使用http代理的方法,从单个http代理到多个http代理的使用。如果大家想找http代理使用,可以找机灵代理的。


相关文章内容简介
推荐阅读
  • 26 2019-06
    代理IP检测时有效怎么使用无效了

    代理IP检测时有效怎么使用无效了?这个问题,可能很多人都遇到过的,明明检测没有问题,一到使用就出错了,这是为什么呢?原因可能有以下几点:

  • 20 2019-05
    代理IP日常使用换IP地址

    代理IP日常使用换IP地址,这是由于在平时的生活和工作中,我们经常会遇到更换IP的问题。每每这个时候就是最令人头疼的时候了。这就是传说中的“书到用时方恨少”。其实作为我们普通人,

  • 13 2019-06
    怎么提高代理IP资源的使用降低消耗?

    怎么提高代理IP资源的使用降低消耗?由于IP资源是有限的,目前尚不能肆意的使用,而且使用代理IP资源是需要花钱的,那么能不能提高一些使用效率,降低IP资源的损耗,从而降低成本呢?可

  • 11 2019-06
    代理IP的有效性受地域和时间影响

    代理IP的有效性收地域和时间影响,为什么呢?很多东西都是有时效的,就像食物都是有保质期,代理IP也不例外,这也就是为什么在使用代理IP的过程中有时候会遇到报错的原因之一。

  • 21 2019-06
    服务器根据HTTP头信息分析用户有没有使用代理

    服务器根据HTTP头信息分析用户有没有使用代理,HTTP代理按匿名度可分为透明代理、普匿代理和高匿代理。如何知道我们使用的是哪种代理呢?我们可以根据代理访问对方服务器所带的HTTP头信息

  • 10 2019-04
    电商使用代理IP可以达到什么目的?

    电商使用代理IP可以达到什么目的?电商是依托互联网发展起来的,几十年以前,我们所知道的电商平台真的是寥寥无几。不过如今,由于互联网的发展,越来越多的人看到了电商行业的商机,

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961