您的位置:首页 > 新闻资讯 >文章内容
基于requests模块的代理操作介绍
来源:互联网 作者:admin 时间:2019-11-29 10:50:13

  代理IP现在经常出现在互联网行业里面,已经成为了大数据时代不可获取的一员了。对于代理IP能够拿来做什么,很多人只是停留在换IP这一点上,其实代理IP的作用可多了。

基于requests模块的代理操作

  机灵代理介绍基于requests模块的代理操作:


  什么是代理?


  代理就是第三方代替本体处理相关事务。例如:生活中的代理:代购,中介,微商......


  代理的分类:


  正向代理:代理客户端获取数据。正向代理是为了保护客户端防止被追究责任。


  反向代理:代理服务器提供数据。反向代理是为了保护服务器或负责负载均衡。


  爬虫中为什么需要使用代理?


  一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数,如果访问频率太快以至于看起来不像正常访客,它可能就会会禁止这个IP的访问。所以我们需要设置一些代理IP,每隔一段时间换一个代理IP,就算IP被禁止,依然可以换个IP继续爬取。


  import requests


  import random


  if __name__ == "__main__":


  #不同浏览器的UA


  header_list = [


  # 遨游


  {"user-agent": "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)"},


  # 火狐


  {"user-agent": "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1"},


  # 谷歌


  {


  "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"}


  ]


  #不同的代理IP


  proxy_list = [


  {"http": "112.115.57.20:3128"},


  {'http': '121.41.171.223:3128'}


  ]


  #随机获取UA和代理IP


  header = random.choice(header_list)


  proxy = random.choice(proxy_list)


  url = 'http://www.baidu.com/s?ie=UTF-8&wd=ip'


  #参数3:设置代理


  response = requests.get(url=url,headers=header,proxies=proxy)


  response.encoding = 'utf-8'


  with open('daili.html', 'wb') as fp:


  fp.write(response.content)


  #切换成原来的IP


  requests.get(url, proxies={"http": ""})


  利用代理IP,我们能够在网络上完成数据采集、数据刷量、网络推广等工作,大大方便了我们的工作。


相关文章内容简介
推荐阅读
  • 30 2019-10
    机灵代理套餐如何选择?

    大家看到机灵代理上的套餐选择那么多,一时之间可能不知道该怎么选择好,是按时间来买呢。还是按数量来买呢?其实,大家选择代理IP的时候,只要从自己的业务来考虑,就能够找到合适的方

  • 05 2020-08
    为何代理IP必须要授权

    使用代理IP时间长的朋友都知道,几年前用到代理IP时,一个txt文本放上里面几百个IP,可以尽情地使用,根本没有绑定IP授权使用这回事。不过,后来IP质量渐渐的不行了,大部分都不能使用了

  • 01 2019-05
    用代理服务器的好坏影响

    用代理服务器的好坏影响都有哪些?一般都是了解代理服务器使用的好处,但是对代理服务器的影响并没有怎么了解的,本文详细为大家介绍下。

  • 17 2020-06
    开启互联网+代理ip新时代

    现在什么都跟互联网+有所联系,互联网在各个领域中都有着比较深远的影响。同时,也让代理ip这个领域焕发活力。

  • 16 2019-04
    分布式爬虫缺陷,爬得越快封得也越快,http代理能解决吗?

    分布式爬虫缺陷,爬得越快封得也越快,http代理能解决吗?确实,在网站来说,爬得越快就证明你越有问题,对于这类的爬虫,网站是毫不手软的。

  • 29 2020-09
    爬虫加代理的三种方式

    在学习Python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术,高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部