您的位置:首页 > 新闻资讯 >文章内容
python爬虫遇到301、302状态码怎么回事?
来源:互联网 作者:admin 时间:2019-04-01 16:57:48

  每个网站的反爬虫机制不一样,而且网站也是有变化的,因此爬虫在爬取的过程中是经常会遇到问题的,今天讲下关于爬虫遇到的301、302的问题。


  这些状态码出现时,很大程度的影响到我们的爬虫速度和信息的准确性,那么如何去处理呢?


python爬虫遇到301、302状态码怎么回事?


  这些状态码的意思以及应对方法:


  302:请求到的资源在一个不同的URL处临时保存。


  处理方式:重定向到临时的URL。


  301:请求到的资源都会分配一个永久的URL,这样就可以在将来通过该URL来访问此资源。


  处理方式:重定向到分配的URL。


  300:该状态码不被HTTP/1.0的应用程序直接使用,只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。


  处理方式:若程序中能够处理,则进行进一步处理,如果程序中不能处理,则丢弃。


  针对不同的模块给出不同的解决方案:


  在使用python爬虫的过程中难免会遇到很多301,302的问题。


  使用requests模块爬虫


  使用requests模块遇到301和302问题时,


  如果是用requests,那就在参数里面关闭重定向。


  >>> r = requests.get('http://github.com', allow_redirects=False)


  allow_redirects=False#设置这个属性为False则是不允许重定向,反之可以重定向


  如果使用的scrapy,那就在在设置里添加禁止重定向。


  REDIRECT_ENABLED


  REDIRECT_MAX_TIMES


  使用scrapy模块进行爬虫的时候遇到301很302问题。


python爬虫遇到301、302状态码怎么回事?


  这是在yield里面加上dont_filter=True,解决了这个问题,dont_filter的意思是,如果已经爬取过得url,也就是没有出现问题的url,自然而然出现问题的url将会再次被传递,这样也就解决了重定向问题。


  只要找到问题,便能对症下药,不然也是干着急,也解决不了。网站的反爬虫比较多,不仅是遇到这些问题,还有学会处理IP限制,验证码问题,动态加载等等。


相关文章内容简介
推荐阅读
  • 27 2019-05
    代理服务器共享网络

    代理服务器共享网络,这是代理服务器的其中一种作用,很多人可能不知道,但是实际中很多人都是不知不觉在使用共享网络的。

  • 23 2019-09
    代理IP告诉你http和https的区分

    使用代理IP的时候,在选择不同的代理套餐的时候,我们会发现有不同的协议。http与https只是一个单词的不同,那么它们之间的区别大吗?下面,机灵代理与大家一同看看这两者的介绍。

  • 05 2019-08
    代理IP产品怎么挑选到好用的

    代理IP产品怎么挑选到好用的?商家提供的产品和服务差不多,但是还是有各自的优缺点,品质嘛也是值得讨论的。对于越来越被应用的代理IP,咱们到底该怎么选?

  • 23 2019-08
    动态IP多拨VPS出错问题 如何解决?

    使用代理IP的过程中,或多或少会有出现故障的情况,这个时候,我们可以直接联系商家客服,让他们帮助解决。如果是动手能力比较强的小伙伴,想自己快速处理的话,下面有一些对应故障代

  • 18 2019-04
    偶像信息怎么利用代理IP进行采集?

    大部分代理IP,其实都是拿来进行信息的采集,那么偶像信息怎么利用代理IP进行采集?你会因为一首歌,一部电影,一个角色而喜欢一个偶像。因为喜欢他,所以想了解他很多东西。作为爬虫

  • 15 2019-10
    用代理IP 摆脱IP被封烦恼

    你是不是经历过IP被封的情况?在爬虫、网络营销的场景中,出现的最多,但是有了代理IP,大家就可以不用担心了。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部