您的位置:首页 > 新闻资讯 >文章内容
Scrapy爬取知乎------配置代理IP和UA
来源:互联网 作者:admin 时间:2019-03-22 18:16:21

  爬虫们要想进行大规模的爬取数据,这并不容易,因为网站大量的反爬虫也不是摆设的,要想获取到这些数据,势必要伪装好自己的数据,那么需要伪装什么数据呢?


  首先呢,如果有钱的话建议自己去购买个比较高级的代理IP,代理精灵也是可以的,这种代理响应速度比一般的要快很多。知乎对爬虫限制相对来说没有那么严格,所以一般的IP也没啥用(当然我说的单台),如果你部署多台的话有个代理IP是很爽的,方便快捷。


  找代理IP,大家自行百度,我就不多说了,基本每个代理都有免费的额度。


  先把UA池配了,爬虫应该UA池是必须配的。


  在setting.py中加入下面的代码:

Scrapy爬取知乎------配置代理IP和UA


  UA池,百度一搜一大堆。


  在中间件middlewares.py中写入下面的代码。使用代理IP池的方法可以去GitHub上搜proxy,很多。



Scrapy爬取知乎------配置代理IP和UA


Scrapy爬取知乎------配置代理IP和UA
Scrapy爬取知乎------配置代理IP和UA


  在新建一个py文件放入下面的代码:


Scrapy爬取知乎------配置代理IP和UA


  到这配置基本就结束 了。在setting.py中修改下面的代码:


Scrapy爬取知乎------配置代理IP和UA


  完全结束,启动项目就会发现请求是从代理IP发出的。如果配合scrapy-redis配置多台应该效率还是可以的。


  对于数据的爬取,使用单个爬虫是满足不了,若是使用多个爬虫,也是要借用到代理IP的,通过代理IP池的使用,爬虫爬取会更方便。


相关文章内容简介
推荐阅读
  • 16 2019-10
    使用代理IP分布式爬虫

    分布式爬虫这种抓取方式能够帮助爬虫工作者提高工作效率,不仅是爬虫进度得到了提升,而且数据抓取的速度也有飞跃进步。那么使用代理IP进行分布式爬虫要怎么进行呢?以下是操作教程:

  • 20 2019-05
    代理服务器伪IP地址

    代理服务器伪IP地址,这样可以有效的节约网上资源,即用代理服务器可以减少对IP地址的需求,对于使用局域网方式接入Internet,如果为局域网(LAN)内的每一个用户都申请一个IP地址,其费用

  • 04 2019-06
    多IP使用可以用代理IP

    多IP使用可以用代理IP,不然自己傻傻的手动换,不知道要换多久呢?

  • 02 2019-10
    代理IP网络开源爬虫代码分享

    想要获得海量数据的入口,爬虫技术必不可少。过去由于代理IP的缺乏,爬虫工作的展开较为艰难以及所需要耗费的时间较多,但是自从代理IP得到了使用,爬虫变得轻松了许多,也顺势促进了

  • 19 2019-12
    代理IP​对网络营销的作用!

    代理IP​对网络营销的作用!随着互联网的发展,网站推广营销已经成为企业必不可少的一项投资。但是一般企业网站要想通过正常优化手段获得排名的话,简直难如上青天。网站的排名一般来说

  • 12 2019-06
    网上公开的免费代理ip隐患多

    网上公开的免费代理ip隐患多,虽然如此,但是依然有很多人在使用,这是为何呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部