您的位置:首页 > 新闻资讯 >文章内容
Scrapy爬取知乎------配置代理IP和UA
来源:互联网 作者:admin 时间:2019-03-22 18:16:21

  爬虫们要想进行大规模的爬取数据,这并不容易,因为网站大量的反爬虫也不是摆设的,要想获取到这些数据,势必要伪装好自己的数据,那么需要伪装什么数据呢?


  首先呢,如果有钱的话建议自己去购买个比较高级的代理IP,代理精灵也是可以的,这种代理响应速度比一般的要快很多。知乎对爬虫限制相对来说没有那么严格,所以一般的IP也没啥用(当然我说的单台),如果你部署多台的话有个代理IP是很爽的,方便快捷。


  找代理IP,大家自行百度,我就不多说了,基本每个代理都有免费的额度。


  先把UA池配了,爬虫应该UA池是必须配的。


  在setting.py中加入下面的代码:

Scrapy爬取知乎------配置代理IP和UA


  UA池,百度一搜一大堆。


  在中间件middlewares.py中写入下面的代码。使用代理IP池的方法可以去GitHub上搜proxy,很多。



Scrapy爬取知乎------配置代理IP和UA


Scrapy爬取知乎------配置代理IP和UA
Scrapy爬取知乎------配置代理IP和UA


  在新建一个py文件放入下面的代码:


Scrapy爬取知乎------配置代理IP和UA


  到这配置基本就结束 了。在setting.py中修改下面的代码:


Scrapy爬取知乎------配置代理IP和UA


  完全结束,启动项目就会发现请求是从代理IP发出的。如果配合scrapy-redis配置多台应该效率还是可以的。


  对于数据的爬取,使用单个爬虫是满足不了,若是使用多个爬虫,也是要借用到代理IP的,通过代理IP池的使用,爬虫爬取会更方便。


相关文章内容简介
推荐阅读
  • 22 2020-09
    免费代理ip好不好用

    能免费使用ip代理软件自然最好不过了,这样使用方便,还不花钱,直接在网络就能找到很多的IP地址更换使用,不过也是有一个致命的缺点,就是这些免费的ip代理软件中十个估计没有一两个是

  • 16 2019-04
    【图文教程】浏览器快速设置ip代理

    有浏览器快速设置ip代理的图文教程么?本来还好好的上着网,突然间就显示“网页无法显示”,这是怎么回事?是不是IP被封了,需要设置代理IP上网?设置代理IP的方法有?

  • 09 2020-07
    选择一款高性价比的代理IP

    代理IP对于⼀些做爬⾍的⼯作者来说可能是⾮常熟悉,他们天天都需要和代理IP打交道,但是⾯对市场上繁多的代理IP提供商,我们如何去选择⼀家性价⾼的代IP供应商呢?今天⼩编都给⼤家做些

  • 16 2019-01
    用代理IP有哪些注意事项?

    现在使用代理IP的人越来越多,都说代理IP使用效果好,是大家工作上的好帮手,但是想要很好的使用代理IP,还是需要了解透彻代理IP的,可能有一些相对专业的知识,大家可能没有弄清楚,那

  • 02 2020-03
    应用IP代理的益处

    在互联网时代下,人们不管在生活中還是工作方面都不可或缺互联网。互联网工作人员对IP代理的要求也愈来愈大,像网络宣传推广、数据收集抓取、游戏评测、数据统计分析、百度发帖这些,

  • 31 2019-01
    使用分布式爬虫爬取数据有什么优势?

    如果没有代理IP,爬虫工作将很困难,因此许多爬虫工程师需要购买高效稳定的代理IP。有了良好的代理IP,你可以高枕无忧吗? 事情并非如此简单,还需要优化程序,合理分配资源,提高工作

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部