您的位置:首页 > 新闻资讯 >文章内容
Scrapy爬取知乎------配置代理IP和UA
来源:互联网 作者:admin 时间:2019-03-22 18:16:21

  爬虫们要想进行大规模的爬取数据,这并不容易,因为网站大量的反爬虫也不是摆设的,要想获取到这些数据,势必要伪装好自己的数据,那么需要伪装什么数据呢?


  首先呢,如果有钱的话建议自己去购买个比较高级的代理IP,代理精灵也是可以的,这种代理响应速度比一般的要快很多。知乎对爬虫限制相对来说没有那么严格,所以一般的IP也没啥用(当然我说的单台),如果你部署多台的话有个代理IP是很爽的,方便快捷。


  找代理IP,大家自行百度,我就不多说了,基本每个代理都有免费的额度。


  先把UA池配了,爬虫应该UA池是必须配的。


  在setting.py中加入下面的代码:

Scrapy爬取知乎------配置代理IP和UA


  UA池,百度一搜一大堆。


  在中间件middlewares.py中写入下面的代码。使用代理IP池的方法可以去GitHub上搜proxy,很多。



Scrapy爬取知乎------配置代理IP和UA


Scrapy爬取知乎------配置代理IP和UA
Scrapy爬取知乎------配置代理IP和UA


  在新建一个py文件放入下面的代码:


Scrapy爬取知乎------配置代理IP和UA


  到这配置基本就结束 了。在setting.py中修改下面的代码:


Scrapy爬取知乎------配置代理IP和UA


  完全结束,启动项目就会发现请求是从代理IP发出的。如果配合scrapy-redis配置多台应该效率还是可以的。


  对于数据的爬取,使用单个爬虫是满足不了,若是使用多个爬虫,也是要借用到代理IP的,通过代理IP池的使用,爬虫爬取会更方便。


相关文章内容简介
推荐阅读
  • 22 2019-02
    网站使用AJAX异步加载后,爬虫是怎么进行抓取的?

    对于AJAX异步加载,大部分都是不理解的,但是我们都见过。其实我们日常使用设备上网的时候,经常会遇到AJAX异步加载,比如搜索信息会先出来一部分数据,当玩下滑的时候不断有新的数据出

  • 06 2019-03
    代理IP与爬虫的关系分析,爬虫使用的IP池需要多少代理IP?

    信息时代,网络数据非常多,我们即使要做个小的数据分析,也是需要抓取非常多的网页来分析结果,这单靠人工获取数据是不现实的,因此大家都是使用各种采集器或者直接使用爬虫去爬取数

  • 11 2019-05
    经常用的浏览器能换IP上网吗?

    经常用的浏览器能换IP上网吗?这当然是可以的,很多的软件都是支持更换IP地址,或者是使用代理上网的,浏览器也不例外,那么浏览器怎么换IP上网呢?

  • 22 2019-06
    代理IP刷点击可以赚钱吗?

    代理IP刷点击可以赚钱吗?很多朋友都知道现在网上有很多网站可以通过点击量来取得收益。这种原理和网页刷排名是差不多的,每次使用代理IP再操作网页重新点击就可以了。下面就来教大家

  • 31 2019-01
    使用分布式爬虫爬取数据有什么优势?

    如果没有代理IP,爬虫工作将很困难,因此许多爬虫工程师需要购买高效稳定的代理IP。有了良好的代理IP,你可以高枕无忧吗? 事情并非如此简单,还需要优化程序,合理分配资源,提高工作

  • 24 2019-03
    数据采集不了?代理精灵提供充足代理ip资源

    虽说爬虫代码不难学,但要学代码没有那么快,要能写出真正能用的爬虫采集数据并不容易。所以很多人都是使用采集工具的,但用过的都不知道其实也并不是很好用,有时候还采集不了,这是

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961