您的位置:首页 > 新闻资讯 >文章内容
爬虫配代理IP和UA爬取顺利,绕过反爬虫机制
来源:互联网 作者:admin 时间:2019-04-08 17:05:00

  网上对于爬虫采集的教程或者是一些讨论都比较多的,如果我们要去爬取一个网站的信息,大家可能最先想的是对方有什么反爬虫机制。是的,这个问题是非常关键的,而且还是必须要解决的。


  就像爬取知乎,如果想大量并发的话的就必须配置最新代理IP。因为知乎的反爬策略就是并发过大就会限制你的爬虫,页面会自动重定向到验证码页面。所以防止你的爬虫被禁,设置个代理和UA还是很有必要的。


  首先呢,如果有钱的话建议自己去购买个比较高级的代理IP,这种代理响应速度比一般的要快很多。知乎对爬虫限制相对来说没有那么严格,所以一般的IP也没啥用(当然我说的单台),如果你部署多台的话有个代理IP是很爽的,方便快捷。


  找代理IP,大家自行百度,我就不多说了,基本每个代理都有免费的额度。如,机灵代理,黑洞HTTP等等。


  先把UA池配了,爬虫应该UA池是必须配的。


  在中加入下面的代码:


爬虫配代理IP和UA爬取顺利,绕过反爬虫机制


  UA池,百度一搜一大堆。


  在中间件中写入下面的代码。使用代理IP池的方法可以去GitHub上搜proxy,很多。


爬虫配代理IP和UA爬取顺利,绕过反爬虫机制

爬虫配代理IP和UA爬取顺利,绕过反爬虫机制


  在新建一个py文件放入下面的代码:


爬虫配代理IP和UA爬取顺利,绕过反爬虫机制


  到这配置基本就结束了。在中修改下面的代码:


爬虫配代理IP和UA爬取顺利,绕过反爬虫机制


  完全结束,启动项目就会发现请求是从代理IP发出的。如果配合scrapy-redis配置多台应该效率还是可以的。


  基本上,爬虫都是要配代理IP和UA的,否则很难可以爬取的,因为对方拒绝如此粗暴的爬取,这会给服务器带来影响,可能还会损害自己的利益,当然是禁止的。不过你有张良计,我有过墙梯,爬虫总是能找到方法来解决的。


相关文章内容简介
推荐阅读
  • 29 2019-05
    随机选择代理IP有效率怎样

    随机选择代理IP有效率怎样?如果使用代理IP之前,未经过检测,就直接使用了,结果会怎样?

  • 01 2019-08
    爬虫多线程工作不能少代理IP

    爬虫多线程工作不能少代理IP!当我们在访问目标网站进行数据抓取时,ip访问过于频繁,就会出现被禁止访问的情况,这就需要代理IP来解决了,我们先看下爬虫是怎么工作的,为何要使用代理

  • 09 2019-04
    更换代理IP后启动爬虫,是否能断点续传?

    更换代理IP后启动爬虫,是否能断点续传?有时候被封IP,导致爬虫程序中断,如果再次启动非常的麻烦,重新再来也没有效果,是否能够在更换新的IP地址后,再从断的地方开始呢?scrapy支持断

  • 26 2019-04
    Win系统设置全局代理IP上网

    像QQ或者微信这些软件是支持设置代理IP上网的,但也有些软件不支持设置代理,这该怎么办呢?是否能设置全局代理IP上网?这样就不用单独来设置了,有没有Win系统设置全局代理IP上网这样的

  • 17 2019-04
    萌新能抓取到微博数据吗?编写Python爬虫要注意什么?

    萌新能抓取到微博数据吗?不管爬取什么数据,都是要使用一些工具辅助的,比如,在爬取之前,需要有一个靠谱的爬虫程序,自己写也行,或者去网上找教程找现成的程序也行,现在网上也有

  • 29 2019-08
    代理IP有哪些连接错误?

    在使用代理IP的时候,会经常出现哪些故障情况呢?下面机灵代理为你搜集了部分比较常见的错误代码,以及解决方案,为大家在使用代理IP的时候更有保障。

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961