您的位置:首页 > 新闻资讯 >文章内容
如何在多个http代理间来回切换,弱化ip被限制风险?
来源:互联网 作者:admin 时间:2019-04-07 17:00:00

在使用爬虫之前,大家都要先考虑一下反爬虫的问题,若不能解决,这是无法实现爬取的。比如,有时候即使使用了http代理,也偶尔会出现错误,这是为什么呢?难度是http代理不好用?还是说使用的人太多了,重复性太高?


其实对于ip限制,我们切换多开代理ip使用的,那么如何在多个http代理间来回切换,弱化ip被限制风险?


突破ip限制的方式,大概有如下几种:


1.和被爬的网站合作,将自己的ip加入白名单。这种方法基本是不可能的,一般上网站不给你爬的,都有各种的限制,除非是动态ip代理商,让你ip加入白名单提取ip。


2.买多台具有公网ip的服务器,每台都布一个爬虫脚本,相当于每个爬虫都有自己的独立ip。这种方式基本上会比较少用的。因为多台服务器成本高,同一爬虫部署多处,维护成本也高(配置、部署、升级、爬虫间相互协调等)。


3.买一些便宜的ip资源,用这些ip做代理(可以是配置很低的且每台机器具有多个公网ip的服务器,只负责网络代理,不跑业务)。不过成本低,脚本无需部署多处。

本文将针对方式3,从原理到实现,一步一步地说明。


http代理原理


当访问某个站点时,网站服务器可以获取到访问者的ip. 服务器可以根据来自该ip的请求情况,做一些限流操作。而代理,是在访问者和站点之间,加一个中间人。访问者向中间人发请求,中间人将该请求转发给站点,最后中间人把站点的响应返回给访问者。在这个过程中站点只能看到代理(中间人)的ip。


无代理的情况: 访问者 站点 (站点看到的是访问者的ip)

有代理的情况: 访问者 代理 站点 (站点看到的是代理的ip)

有动态代理的情况: 访问者 代理1,代理2,代理3,... ] 站点 ( 站点看到的是多个代理的随机ip )


使用 curl 做实验


如何在多个http代理间来回切换,弱化ip被限制风险?

使用代理后,我的ip(对于被访问的站点来说),变成了。 通过以上实验,想必你对代理也有了一定的感知。


用nodejs写一个简单的爬虫


这个爬虫很简单,就是请求,将返回值打印到控制台。

如何在多个http代理间来回切换,弱化ip被限制风险?

的内容如下:

如何在多个http代理间来回切换,弱化ip被限制风险?


至此,单个http代理已经完成了。接下来我们讨论如何动态地在多个http代理间来回切换,以此来弱化被爬的站点对访问者ip的限制。


第一种方案


从外部将ip代理参数传给爬虫脚本,爬虫运行完成后自动退出,再取另一个ip代理参数,重新跑爬虫脚本,以此形式周而复始。

可以写一个这样的shell脚本:

如何在多个http代理间来回切换,弱化ip被限制风险?

其中 PROXY=$p 是定义一个环境变量PROXY, 其值是2个http代理中的任意一个。我们修改一下, 让其使用PROXY环境参数作为其代理:

如何在多个http代理间来回切换,弱化ip被限制风险?

该方案使用bash脚本配合js爬虫脚本一起使用,对于不懂bash的人来说,维护起来有一定的心理负担。接下来,我们使用纯js语言实现。


第二种方案


将方案一中的bash转换为js,内容调整为以下内容:

如何在多个http代理间来回切换,弱化ip被限制风险?

以上介绍了关于使用http代理的方法,从单个http代理到多个http代理的使用。如果大家想找http代理使用,可以找机灵代理的。


相关文章内容简介
推荐阅读
  • 27 2019-05
    代理服务器在网络中的一些用途

    代理服务器在网络中的一些用途,如果能够掌握这些用途,这对于我们的工作会更加有帮助的,那么我们就去了解下代理服务器的一些使用,使用代理服务器都有什么好处呢?

  • 11 2019-03
    Python爬虫使用代理IP可以无限采集吗?

    Python爬虫要想大施拳脚,想必是需要一些辅助的工具,我们最常见到的工具有代理IP,爬虫有了代理IP可以如虎添翼,大大加快工作的效率,因此代理IP对于爬虫来说是一款必备的工具。

  • 09 2019-05
    换IP地址发帖还是被删怎么回事?

    换IP地址发帖还是被删怎么回事?都说频繁发帖容易被删,但是我换IP了啊,怎么还是被删了呢?到底是换的IP不管用,还是其他原因呢?

  • 29 2019-08
    代理IP有哪些连接错误?

    在使用代理IP的时候,会经常出现哪些故障情况呢?下面机灵代理为你搜集了部分比较常见的错误代码,以及解决方案,为大家在使用代理IP的时候更有保障。

  • 13 2019-05
    代理IP能突破网站的IP访问限制吗?

    代理IP能突破网站的IP访问限制吗?Web服务器防火墙的一个重要作用是防止拒绝服务(DDOS)攻击。如果您的刷新率超过防火墙定义的频率,它将被视为网站上的DDOS攻击,它将直接阻止您的IP或您

  • 15 2019-06
    优质http代理并没有想象中好

    优质http代理并没有想象中好,这是什么原因导致的呢?目前大数据的应用,让数据采集成为了一个热门的行业,大数据样本的获得需要通过数据爬虫来时限,爬虫工作者一般都会解用爬虫http代

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961