您的位置:首页 > 新闻资讯 >文章内容
Scrapy爬取知乎------配置代理IP和UA
来源:互联网 作者:admin 时间:2019-03-22 18:16:21

  爬虫们要想进行大规模的爬取数据,这并不容易,因为网站大量的反爬虫也不是摆设的,要想获取到这些数据,势必要伪装好自己的数据,那么需要伪装什么数据呢?


  首先呢,如果有钱的话建议自己去购买个比较高级的代理IP,代理精灵也是可以的,这种代理响应速度比一般的要快很多。知乎对爬虫限制相对来说没有那么严格,所以一般的IP也没啥用(当然我说的单台),如果你部署多台的话有个代理IP是很爽的,方便快捷。


  找代理IP,大家自行百度,我就不多说了,基本每个代理都有免费的额度。


  先把UA池配了,爬虫应该UA池是必须配的。


  在setting.py中加入下面的代码:

Scrapy爬取知乎------配置代理IP和UA


  UA池,百度一搜一大堆。


  在中间件middlewares.py中写入下面的代码。使用代理IP池的方法可以去GitHub上搜proxy,很多。



Scrapy爬取知乎------配置代理IP和UA


Scrapy爬取知乎------配置代理IP和UA
Scrapy爬取知乎------配置代理IP和UA


  在新建一个py文件放入下面的代码:


Scrapy爬取知乎------配置代理IP和UA


  到这配置基本就结束 了。在setting.py中修改下面的代码:


Scrapy爬取知乎------配置代理IP和UA


  完全结束,启动项目就会发现请求是从代理IP发出的。如果配合scrapy-redis配置多台应该效率还是可以的。


  对于数据的爬取,使用单个爬虫是满足不了,若是使用多个爬虫,也是要借用到代理IP的,通过代理IP池的使用,爬虫爬取会更方便。


相关文章内容简介
推荐阅读
  • 22 2019-10
    线程IP池的使用教程

    之前我们介绍了线程IP池,那么在购买了线程IP池之后,我们要怎么设置以及使用呢?下面我们来看看具体的使用步骤。相关阅读:线程IP池如何理解?

  • 20 2020-05
    哪种代理ip比较好用

    随着大数据和智能化时代的发展,爬虫作为重要的数据来源,也日渐重要。爬虫工作者自身需要一些技术来适应时代的要求,作为一个优秀的爬虫工程师,对于爬虫策略与反爬虫策略要有很深的

  • 29 2020-05
    爬虫请用高质量代理ip

    网络爬虫是通过目标服务器获取到想要的公开信息数据,据说互联网超过百分之五十的流量都是通过网络爬虫所创造的,获取竞争对手的公开数据信息和市场分析数据,所以每天都有很多爬虫软

  • 22 2019-03
    IP失效太多?怎么进行代理IP的有效性检测

    在写网络爬虫时需要加入代理IP,若是不调用代理IP,其效果是非常差的,特别是使用免费的代理IP。这需要在使用之前,需要进行代理IP的有效性检测。

  • 05 2020-02
    自动换ip效率更高

    HTTP代理IP软件大家都不陌生了,对于很多网络工作人员来说是必不可少的工具,提升了很多工作效率。但是很多人还是对HTTP代理IP软件不是很了解,还有很多人认为手动切换IP也很好,并不相信

  • 13 2019-08
    爬虫采集数据用IP代理的原因

    爬虫采集数据用IP代理的原因,这一点估计有些人依旧不明白,这其实是跟网站的反爬策略有关的。比如请求头检测,IP限制等等。对于这些反爬策略,怎么解决呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部