您的位置:首页 > 新闻资讯 >文章内容
Scrapy爬取知乎------配置代理IP和UA
来源:互联网 作者:admin 时间:2019-03-22 18:16:21

  爬虫们要想进行大规模的爬取数据,这并不容易,因为网站大量的反爬虫也不是摆设的,要想获取到这些数据,势必要伪装好自己的数据,那么需要伪装什么数据呢?


  首先呢,如果有钱的话建议自己去购买个比较高级的代理IP,代理精灵也是可以的,这种代理响应速度比一般的要快很多。知乎对爬虫限制相对来说没有那么严格,所以一般的IP也没啥用(当然我说的单台),如果你部署多台的话有个代理IP是很爽的,方便快捷。


  找代理IP,大家自行百度,我就不多说了,基本每个代理都有免费的额度。


  先把UA池配了,爬虫应该UA池是必须配的。


  在setting.py中加入下面的代码:

Scrapy爬取知乎------配置代理IP和UA


  UA池,百度一搜一大堆。


  在中间件middlewares.py中写入下面的代码。使用代理IP池的方法可以去GitHub上搜proxy,很多。



Scrapy爬取知乎------配置代理IP和UA


Scrapy爬取知乎------配置代理IP和UA
Scrapy爬取知乎------配置代理IP和UA


  在新建一个py文件放入下面的代码:


Scrapy爬取知乎------配置代理IP和UA


  到这配置基本就结束 了。在setting.py中修改下面的代码:


Scrapy爬取知乎------配置代理IP和UA


  完全结束,启动项目就会发现请求是从代理IP发出的。如果配合scrapy-redis配置多台应该效率还是可以的。


  对于数据的爬取,使用单个爬虫是满足不了,若是使用多个爬虫,也是要借用到代理IP的,通过代理IP池的使用,爬虫爬取会更方便。


相关文章内容简介
推荐阅读
  • 29 2020-07
    爬虫请选择高匿代理ip

    透明代理,匿名代理,高匿代理,是我们在选择代理IP的时候经常会遇到的不同代理匿名方式。按照字面意思,这三种分别代表了不同的IP隐匿程度,根据我们不同的使用场景与目的去选择。

  • 20 2019-03
    抓取安卓APP信息出现错误,是代理IP的问题吗?

    有时候在抓取APP信息时,无缘无故就出现错误了,但用其他手机测试又没有问题?这到底是什么原因导致的错误?会不会是使用代理IP的问题?我们分析一下:

  • 01 2019-07
    同IP地址高频率访问网站会被封

    同IP地址访问网站过于频率会被封,因此若是想要频繁访问网站,首先要解决单IP地址的问题,简单的说,需要使用代理IP来解决身份问题,代理就是换个身份,网络中的身份之一就是IP。

  • 30 2019-05
    游戏卡顿找代理IP进行加速

    很多时候配置跟不上,网络跟不上,玩游戏很多人都会出现卡顿的情况,游戏卡顿找代理IP进行加速。网游在近年来发展最为迅速火热,当然这也离不开各大网络游戏公司为了拉拢游戏玩家的心

  • 13 2019-08
    爬虫采集数据用IP代理的原因

    爬虫采集数据用IP代理的原因,这一点估计有些人依旧不明白,这其实是跟网站的反爬策略有关的。比如请求头检测,IP限制等等。对于这些反爬策略,怎么解决呢?

  • 13 2020-01
    爬虫为什么会被封禁?

    爬虫为什么会被封禁?在当今互联网高速发展的年代,爬虫采集成为很多公司企业和个人的需求,但正因为如此,反爬虫的技术也层出不穷,比如时间限制、IP限制、验证码限制等等,都可能会导

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部