您的位置:首页 > 新闻资讯 >文章内容
反反爬虫使用代理IP时,如何进行IP切换
来源:互联网 作者:admin 时间:2019-03-19 10:43:03

  反反爬虫需要使用代理IP已经成为当下比较透明的方法了,即使新手初入门也被普及要使用代理IP,这确实是个非常实用,也是必要的工具。不过还是有很多人不知道,反反爬虫使用代理IP时如何进行IP切换的,下面小编为大家介绍几个切换IP的方法,仅供参考。


  1.用户密码认证


  通过用户名和密码的形式进行身份认证,该认证信息最终会转换为Proxy-Authorization协议头跟随请求一起发出,同时支持通过Authorization协议头进行隧道身份验证。如用户认证错误,系统会返回401Unauthorized或407ProxyAuthenticationRequired。


  举个例子:在代码中使用HTTP隧道时,如果代码的HTTP请求方法不支持以用户名/密码的形式设置身份认证信息,则需要手动为每个HTTP请求增加Proxy-Authorization协议头,其值为Basic。其中为“用户名”和“密码”通过:拼接后,再经由BASE64编码得到的字符串。正确设置后,发出的请求都将包含如下格式的HTTP协议头信息:Proxy-Authorization:BasicMTZZVU4xMjM6MTIzNDMyMw==


  温馨提醒:建议使用Proxy-Authorization进行用户密码认证。如果使用Authorization,该HTTP头信息会随请求发送到目标网站。访问HTTPS网站时,请使用库自带的代理认证方式,手动设置的Proxy-Authorization协议头,在访问HTTPS网站的情况下,会被代理直接转发到目标网站,导致匿名失效。


反反爬虫使用代理IP时,如何进行IP切换


  2.TCP请求切换IP(KeepAlive)


  每个TCP请求自动切换,是指爬虫代理为爬虫程序发出的每个TCP请求随机提供一个代理IP,该模式适合需要多个session使用相同IP的连续性访问。


  举个例子:需要登录,获取数据两个请求在一个IP下,只需保证该组请求在一个TCP会话下,该组请求在代理有效期内使用相同的代理IP。


  3.自主切换IP


  该模式适合一些需要登陆、Cookie缓存处理等爬虫需要精确控制IP切换时机的业务。爬虫程序可以通过设置HTTP头Proxy-Tunnel:随机数,当随机数相同时,访问目标网站的代理IP相同。


  举个例子:需要登录,获取数据两个请求在一个IP下,只需对这组请求设置相同Proxy-Tunnel,举个例子:Proxy-Tunnel:12345,该组请求在代理有效期内使用相同的代理IP。


  温馨提醒:


  1.使用相同IP访问HTTPS目标网站


  使用Connection:keep-alive和Proxy-Connection:keep-alive方式访问目标网站,代理会确保在一个会话中的所有请求都通过一个IP到达目标网站;设置相同Proxy-Tunnel,有些库封装比较高层次,请务必确认向代理发送了该HTTP头。


  2.同一时间不同请求组可以设置不同Proxy-Tunnel:随机数,并发完成数据爬取。


  可能大家会疑问,这几种方法,我们到底使用哪种比较好,对于这个问题,大家可以根据实际的方式选择的,若是需要自动切换IP,就找软件模式的,同理使用。在选择代理IP时,不妨考虑下代理精灵的,目前最受欢迎的一家代理IP商,为什么那么受欢迎的,自然时因为价格、质量、数量等方面有优势的。


相关文章内容简介
推荐阅读
  • 20 2019-03
    JavaScript渲染的网页,为什么使用IP代理也获取不了

    JavaScript渲染的网页,为什么使用IP代理也获取不了?网站有静态页面,也有动态页面,这经过JavaScript渲染的网页,我们在抓取的时候并没有那么顺利,即使使用了代理IP来突破限制,也不行。那

  • 26 2019-03
    代理服务器网址的工作原理

    一提到代理服务器网址,大家可能就会想知道它的工作原理是什么,一般我们在使用浏览器时是由服务器设置好格式之后,大家在访问时就有www站点的请求,这都是不会直接发给目的主机的,而

  • 27 2019-05
    代理服务器突破不了哪些限制

    代理服务器突破不了哪些限制?代理服务器突破限制,这是大家经常看到的,不过代理服务器虽然好用,如果超出了范围,这也是力不能及的。

  • 25 2019-04
    怎么获取到最新可用的爬虫代理?

    怎么获取到最新可用的爬虫代理?如今,网络发展比较快的,大家对代理的需求也逐渐增多,即使网上有很多免费的,但是由于质量上的需求,还是很多人要用好的,新的爬虫代理,所以爬虫代

  • 11 2019-03
    网站有反采集措施,无法采集信息怎么办

    现在数据这么多,想要获得一些有价值的信息,我们需要对海量的数据进行筛选,而想要获取这些数据,并不是那么简单,因为网站有反采集措施,无法大量的采集数据。这该怎么办呢?

  • 11 2019-06
    代理IP的有效性受地域和时间影响

    代理IP的有效性收地域和时间影响,为什么呢?很多东西都是有时效的,就像食物都是有保质期,代理IP也不例外,这也就是为什么在使用代理IP的过程中有时候会遇到报错的原因之一。

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961