您的位置:首页 > 新闻资讯 >文章内容
反反爬虫使用代理IP时,如何进行IP切换
来源:互联网 作者:admin 时间:2019-03-19 10:43:03

  反反爬虫需要使用代理IP已经成为当下比较透明的方法了,即使新手初入门也被普及要使用代理IP,这确实是个非常实用,也是必要的工具。不过还是有很多人不知道,反反爬虫使用代理IP时如何进行IP切换的,下面小编为大家介绍几个切换IP的方法,仅供参考。


  1.用户密码认证


  通过用户名和密码的形式进行身份认证,该认证信息最终会转换为Proxy-Authorization协议头跟随请求一起发出,同时支持通过Authorization协议头进行隧道身份验证。如用户认证错误,系统会返回401Unauthorized或407ProxyAuthenticationRequired。


  举个例子:在代码中使用HTTP隧道时,如果代码的HTTP请求方法不支持以用户名/密码的形式设置身份认证信息,则需要手动为每个HTTP请求增加Proxy-Authorization协议头,其值为Basic。其中为“用户名”和“密码”通过:拼接后,再经由BASE64编码得到的字符串。正确设置后,发出的请求都将包含如下格式的HTTP协议头信息:Proxy-Authorization:BasicMTZZVU4xMjM6MTIzNDMyMw==


  温馨提醒:建议使用Proxy-Authorization进行用户密码认证。如果使用Authorization,该HTTP头信息会随请求发送到目标网站。访问HTTPS网站时,请使用库自带的代理认证方式,手动设置的Proxy-Authorization协议头,在访问HTTPS网站的情况下,会被代理直接转发到目标网站,导致匿名失效。


反反爬虫使用代理IP时,如何进行IP切换


  2.TCP请求切换IP(KeepAlive)


  每个TCP请求自动切换,是指爬虫代理为爬虫程序发出的每个TCP请求随机提供一个代理IP,该模式适合需要多个session使用相同IP的连续性访问。


  举个例子:需要登录,获取数据两个请求在一个IP下,只需保证该组请求在一个TCP会话下,该组请求在代理有效期内使用相同的代理IP。


  3.自主切换IP


  该模式适合一些需要登陆、Cookie缓存处理等爬虫需要精确控制IP切换时机的业务。爬虫程序可以通过设置HTTP头Proxy-Tunnel:随机数,当随机数相同时,访问目标网站的代理IP相同。


  举个例子:需要登录,获取数据两个请求在一个IP下,只需对这组请求设置相同Proxy-Tunnel,举个例子:Proxy-Tunnel:12345,该组请求在代理有效期内使用相同的代理IP。


  温馨提醒:


  1.使用相同IP访问HTTPS目标网站


  使用Connection:keep-alive和Proxy-Connection:keep-alive方式访问目标网站,代理会确保在一个会话中的所有请求都通过一个IP到达目标网站;设置相同Proxy-Tunnel,有些库封装比较高层次,请务必确认向代理发送了该HTTP头。


  2.同一时间不同请求组可以设置不同Proxy-Tunnel:随机数,并发完成数据爬取。


  可能大家会疑问,这几种方法,我们到底使用哪种比较好,对于这个问题,大家可以根据实际的方式选择的,若是需要自动切换IP,就找软件模式的,同理使用。在选择代理IP时,不妨考虑下代理精灵的,目前最受欢迎的一家代理IP商,为什么那么受欢迎的,自然时因为价格、质量、数量等方面有优势的。


相关文章内容简介
推荐阅读
  • 20 2019-09
    代理IP总结7个Python爬虫编程规范

    python作为热门用于爬虫的编程开发语言,不仅仅是企业,而且很多爬虫爱好者也在自发开展着网页数据抓取活动。每一款编程软件都有自己的编程规范,以下是当我们使用python编写代码的时候,

  • 15 2020-01
    HTTP代理协议是什么?

    HTTP 协议极其庞杂,它影响着浏览器、爬虫、代理服务器、防火墙、CDN、Web 容器、微服务等诸多方面,自身的规范却并不统一,所要面对的各类软件的新旧版本也同时存在于网络上。在这种情况

  • 05 2019-05
    急需高质量的HTTP代理IP来救场

    急需高质量的HTTP代理IP来救场,有没有什么好的推荐呢?大家都知道,现在是大数据高速发展时代,爬虫行业日益火爆,从业者如过江之鲫,数不胜数,说到爬虫就不得不提另外一个词:代理IP

  • 13 2019-02
    几种获取Ajax加载信息的方法

    网站为了应对各种爬虫采用了许多的反爬虫策略,即使不能完全杜绝爬虫进行爬取,也能大大降低爬虫的采集速度,比如说网站采用Ajax加载数据,但这些信息爬虫又不能不进行采集,那么爬虫

  • 26 2019-10
    爬虫技术入门科普

    互联网时代下的爬虫技术,已经成为越来越多人的学习工具。想要了解爬虫,机灵代理今天为大家介绍爬虫的知识,让大家可以从基础开始入门。

  • 21 2019-03
    恶意爬虫也会使用代理IP,一直更换IP地址隐藏自己

    对于互联网来说,一般说的机器人其实是指互联网上的爬虫、自动机或者是模拟器。部分机器人流量来自于搜索引擎爬虫、自动更新的RSS订阅服务器等,他们是良性的,属于正常机器流量(GoodBo

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部