您的位置:首页 > 新闻资讯 >文章内容
Scrapy框架中间件代理IP设置教程
来源:互联网 作者:admin 时间:2019-11-29 10:49:23

  Scrapy框架中间件如何设置user agent以及配置代理IP进行伪装?下面我们一起来看看机灵代理带来的教程介绍,看看这两个步骤分别是如何实现的。

Scrapy框架中间件代理IP设置

  1、下载中间件中的ua 伪装


  下载中间件可以拦截调度器发送给下载器的请求。可以将请求的相应信息进行篡改,主要可以通过拦截请求修改请求的ip


  在settings 中开启下载中间件


  DOWNLOADER_MIDDLEWARES = {


  'postPro.middlewares.PostproDownloaderMiddleware': 543,


  }


  process_request()


  更改中间件中的 : ROBOTSTXT_OBEY = False


  使用 UA 池


  user_agent_list = [


  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 "


  "(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",


  "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 "


  "(KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",


  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 "


  "(KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",


  "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 "


  "(KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",


  "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 "


  "(KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",


  "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 "


  "(KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",


  "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 "


  "(KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",


  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "


  "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",


  "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 "


  "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",


  "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 "


  "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",


  "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "


  "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",


  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "


  "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",


  "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "


  "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",


  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "


  "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",


  "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 "


  "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",


  "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "


  "(KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",


  "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 "


  "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",


  "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 "


  "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"


  ]


  #拦截所有的正常的请求对象


  def process_request(self, request, spider):


  #可以拦截到所有的响应对象


  request.headers['User-Agent'] = random.choice(self.user_agent_list)


  2、代理IP


  process_exception(self, request,)


  ip列表


  PROXY_http = [


  '153.180.102.104:80',


  '195.208.131.189:56055',


  ]


  PROXY_https = [


  '120.83.49.90:9000',


  '95.189.112.214:35508',


  ]


  使用 ip代理池:


  # request.meta['proxy'] = 'http://ip/port'


  # 判断请求协议头


  #拦截的是发生异常的请求对象


  def process_exception(self, request, exception, spider):


  #设置代理ip


  if request.url.split(':')[0] == 'http':


  request.meta['proxy'] = 'http://'+random.choice(self.PROXY_http)


  else:


  request.meta['proxy'] = 'https://'+random.choice(self.PROXY_https)


  验证 使用 百度查询 请求ip 地址


  这样我们就完成了设置UA以及代理IP的伪装工作了,大家使用的时候只要将自己的代理IP进行替换就可以了。


相关文章内容简介
推荐阅读
  • 24 2019-04
    找爬虫代理要关注IP数量、高并发、多终端

    找爬虫代理要关注IP数量、高并发、多终端,这三个方面,为什么呢?其实很多人购买爬虫代理时,都会把IP可用率作为购买第一参考因素。其实市面上的的IP资源基本都是租用代理拨号服务器,

  • 05 2019-08
    代理IP产品怎么挑选到好用的

    代理IP产品怎么挑选到好用的?商家提供的产品和服务差不多,但是还是有各自的优缺点,品质嘛也是值得讨论的。对于越来越被应用的代理IP,咱们到底该怎么选?

  • 21 2019-06
    服务器根据HTTP头信息分析用户有没有使用代理

    服务器根据HTTP头信息分析用户有没有使用代理,HTTP代理按匿名度可分为透明代理、普匿代理和高匿代理。如何知道我们使用的是哪种代理呢?我们可以根据代理访问对方服务器所带的HTTP头信息

  • 27 2019-05
    代理服务器加速效果怎样?

    代理服务器加速效果怎样?代理服务器的加速,有没有使用过呢?其效果如何呢?

  • 21 2020-02
    ip代理的类型都有什么

    更改ip地址的方法有很多,其中最简单的方法就是利用软件自动更改ip地址,其中的佼佼者就是机灵代理了,那么你知道更改ip地址时都可以采用哪些类型吗?不同的ip代理类型有着不一样的用途

  • 13 2019-09
    代理IP分享:4种爬虫策略

    互联网时代,数据发挥着很重要的作用,可以是企业获得盈利的核心,也可以用于分析发展趋势。想要获得大量的数据,那么就离不开网络爬虫,想要爬虫顺利开展,那么就得做好爬虫方案等准

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部