您的位置:首页 > 新闻资讯 >文章内容
Scrapy框架中间件代理IP设置教程
来源:互联网 作者:admin 时间:2019-11-29 10:49:23

  Scrapy框架中间件如何设置user agent以及配置代理IP进行伪装?下面我们一起来看看机灵代理带来的教程介绍,看看这两个步骤分别是如何实现的。

Scrapy框架中间件代理IP设置

  1、下载中间件中的ua 伪装


  下载中间件可以拦截调度器发送给下载器的请求。可以将请求的相应信息进行篡改,主要可以通过拦截请求修改请求的ip


  在settings 中开启下载中间件


  DOWNLOADER_MIDDLEWARES = {


  'postPro.middlewares.PostproDownloaderMiddleware': 543,


  }


  process_request()


  更改中间件中的 : ROBOTSTXT_OBEY = False


  使用 UA 池


  user_agent_list = [


  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 "


  "(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",


  "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 "


  "(KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",


  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 "


  "(KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",


  "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 "


  "(KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",


  "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 "


  "(KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",


  "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 "


  "(KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",


  "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 "


  "(KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",


  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "


  "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",


  "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 "


  "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",


  "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 "


  "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",


  "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "


  "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",


  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "


  "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",


  "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "


  "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",


  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "


  "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",


  "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 "


  "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",


  "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "


  "(KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",


  "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 "


  "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",


  "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 "


  "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"


  ]


  #拦截所有的正常的请求对象


  def process_request(self, request, spider):


  #可以拦截到所有的响应对象


  request.headers['User-Agent'] = random.choice(self.user_agent_list)


  2、代理IP


  process_exception(self, request,)


  ip列表


  PROXY_http = [


  '153.180.102.104:80',


  '195.208.131.189:56055',


  ]


  PROXY_https = [


  '120.83.49.90:9000',


  '95.189.112.214:35508',


  ]


  使用 ip代理池:


  # request.meta['proxy'] = 'http://ip/port'


  # 判断请求协议头


  #拦截的是发生异常的请求对象


  def process_exception(self, request, exception, spider):


  #设置代理ip


  if request.url.split(':')[0] == 'http':


  request.meta['proxy'] = 'http://'+random.choice(self.PROXY_http)


  else:


  request.meta['proxy'] = 'https://'+random.choice(self.PROXY_https)


  验证 使用 百度查询 请求ip 地址


  这样我们就完成了设置UA以及代理IP的伪装工作了,大家使用的时候只要将自己的代理IP进行替换就可以了。


相关文章内容简介
推荐阅读
  • 15 2020-09
    机灵代理的http代理好用吗

    在日常生活中,我们平时上网可能会很少用到http代理IP,但在从事爬虫作中,用到http代理IP的机会就比较多了。http代理确实给我们的工作带来很多便利,也正因为如此,市面上的代理IP越来越多

  • 26 2019-03
    怎样才能从代理服务器IP中获得收益?

    现如今网络在不断的发展,而网站一夜之间也备受大家的瞩目,从之前的单人使用现在变成了共享网络,但是其资源的正确使用却给客户造成了不少的麻烦,而服务器却帮助他们很好的解决这一

  • 30 2020-10
    代理IP能帮助我们做些什么

    在互联网时期,代理IP曾经不是什么新颖事物了,有一些不太理解的朋友,不断以为用代理IP能够做很多事情。代理IP确实有很多作用,但也并不是万能的。这就好比你买了一个好的球拍,准备了

  • 12 2019-04
    HTTP代理的普通代理和隧道代理

    估计很多人都不认识HTTP代理,什么是HTTP代理?HTTP代理存在2种形式,即普通代理和隧道代理,这两个都有什么不同呢?下面为大家简单的介绍一下:

  • 02 2019-10
    独享IP的优势?如何判断独享IP代理?

    为什么有的时候用相同的爬虫策略去使用代理IP访问网站,有些IP能够成功,而有些IP却失败呢?明明都是选用的是同样的质量,但是不同的代理就在这个时候显示出差异。

  • 08 2019-07
    网络奇慢用IP代理降低延迟

    网络奇慢用IP代理降低延迟,这是很多人都没有想到的方法。正常来说,网络比较慢,不是重启就是换网络,但还有其他的方法,就是使用IP代理降低延迟。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部