您的位置:首页 > 新闻资讯 >文章内容
如何在多个http代理间来回切换,弱化ip被限制风险?
来源:互联网 作者:admin 时间:2019-04-07 17:00:00

在使用爬虫之前,大家都要先考虑一下反爬虫的问题,若不能解决,这是无法实现爬取的。比如,有时候即使使用了http代理,也偶尔会出现错误,这是为什么呢?难度是http代理不好用?还是说使用的人太多了,重复性太高?


其实对于ip限制,我们切换多开代理ip使用的,那么如何在多个http代理间来回切换,弱化ip被限制风险?


突破ip限制的方式,大概有如下几种:


1.和被爬的网站合作,将自己的ip加入白名单。这种方法基本是不可能的,一般上网站不给你爬的,都有各种的限制,除非是动态ip代理商,让你ip加入白名单提取ip。


2.买多台具有公网ip的服务器,每台都布一个爬虫脚本,相当于每个爬虫都有自己的独立ip。这种方式基本上会比较少用的。因为多台服务器成本高,同一爬虫部署多处,维护成本也高(配置、部署、升级、爬虫间相互协调等)。


3.买一些便宜的ip资源,用这些ip做代理(可以是配置很低的且每台机器具有多个公网ip的服务器,只负责网络代理,不跑业务)。不过成本低,脚本无需部署多处。

本文将针对方式3,从原理到实现,一步一步地说明。


http代理原理


当访问某个站点时,网站服务器可以获取到访问者的ip. 服务器可以根据来自该ip的请求情况,做一些限流操作。而代理,是在访问者和站点之间,加一个中间人。访问者向中间人发请求,中间人将该请求转发给站点,最后中间人把站点的响应返回给访问者。在这个过程中站点只能看到代理(中间人)的ip。


无代理的情况: 访问者 站点 (站点看到的是访问者的ip)

有代理的情况: 访问者 代理 站点 (站点看到的是代理的ip)

有动态代理的情况: 访问者 代理1,代理2,代理3,... ] 站点 ( 站点看到的是多个代理的随机ip )


使用 curl 做实验


如何在多个http代理间来回切换,弱化ip被限制风险?

使用代理后,我的ip(对于被访问的站点来说),变成了。 通过以上实验,想必你对代理也有了一定的感知。


用nodejs写一个简单的爬虫


这个爬虫很简单,就是请求,将返回值打印到控制台。

如何在多个http代理间来回切换,弱化ip被限制风险?

的内容如下:

如何在多个http代理间来回切换,弱化ip被限制风险?


至此,单个http代理已经完成了。接下来我们讨论如何动态地在多个http代理间来回切换,以此来弱化被爬的站点对访问者ip的限制。


第一种方案


从外部将ip代理参数传给爬虫脚本,爬虫运行完成后自动退出,再取另一个ip代理参数,重新跑爬虫脚本,以此形式周而复始。

可以写一个这样的shell脚本:

如何在多个http代理间来回切换,弱化ip被限制风险?

其中 PROXY=$p 是定义一个环境变量PROXY, 其值是2个http代理中的任意一个。我们修改一下, 让其使用PROXY环境参数作为其代理:

如何在多个http代理间来回切换,弱化ip被限制风险?

该方案使用bash脚本配合js爬虫脚本一起使用,对于不懂bash的人来说,维护起来有一定的心理负担。接下来,我们使用纯js语言实现。


第二种方案


将方案一中的bash转换为js,内容调整为以下内容:

如何在多个http代理间来回切换,弱化ip被限制风险?

以上介绍了关于使用http代理的方法,从单个http代理到多个http代理的使用。如果大家想找http代理使用,可以找机灵代理的。


相关文章内容简介
推荐阅读
  • 18 2020-02
    如何理解http代理的含义

    代理IP是什么?上网的时候,我们为什么会需要用到代理IP?是每一个用户都会有换IP的需求吗?当然并不是每一个人都一定要用代理IP才能够上网,今天我们来认识http代理的意义。

  • 26 2019-04
    IP代理解决高频率抓取问题

    我们通过使用IP代理解决高频率抓取问题,因为在爬虫的抓取中,如果抓取频率高过了网站的设置阀值,你就会获取到503或者403等响应,将会被禁止访问。通常,网站的反爬虫机制都是依据IP来

  • 23 2020-03
    新媒体与代理ip相辅相成

    如今是网络时代,立足于网络而兴起的行业,以热度和广泛度来排列名次,第一名莫过于新媒体,这一行业的利润之高,来钱之快,恐怕是令很多人眼红,只是也有很多人并不知道,为行业奠定

  • 14 2019-11
    IP对个人隐私的重要性

    在个人隐私被泄露之前,没人重视网络隐私安全,但是当大规模的隐私被盗取,大家开始警醒,发现原来我们的IP地址是这么的重要。于是,代理IP在这个时候进入到了大家的生活。

  • 31 2019-05
    长期不换IP肯定有问题

    长期不换IP肯定有问题,因为一个人不可能总在一个地方的,现在网络如此发达,就像手机到哪里都可以连接WiFi,即使使用手机流量,这IP地址也是会变的。

  • 29 2019-04
    用Python爬取IP代理使用

    用Python爬取IP代理使用,这是很多初学爬虫的人员经常的做法,因为不需要花钱,也可以从实践中学到知识,还可以用于爬取项目,一举三得,故一般初学者都是这个套路的。下面介绍下用Python

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部