您的位置:首页 > 新闻资讯 >文章内容
python爬虫遇到301、302状态码怎么回事?
来源:互联网 作者:admin 时间:2019-04-01 16:57:48

  每个网站的反爬虫机制不一样,而且网站也是有变化的,因此爬虫在爬取的过程中是经常会遇到问题的,今天讲下关于爬虫遇到的301、302的问题。


  这些状态码出现时,很大程度的影响到我们的爬虫速度和信息的准确性,那么如何去处理呢?


python爬虫遇到301、302状态码怎么回事?


  这些状态码的意思以及应对方法:


  302:请求到的资源在一个不同的URL处临时保存。


  处理方式:重定向到临时的URL。


  301:请求到的资源都会分配一个永久的URL,这样就可以在将来通过该URL来访问此资源。


  处理方式:重定向到分配的URL。


  300:该状态码不被HTTP/1.0的应用程序直接使用,只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。


  处理方式:若程序中能够处理,则进行进一步处理,如果程序中不能处理,则丢弃。


  针对不同的模块给出不同的解决方案:


  在使用python爬虫的过程中难免会遇到很多301,302的问题。


  使用requests模块爬虫


  使用requests模块遇到301和302问题时,


  如果是用requests,那就在参数里面关闭重定向。


  >>> r = requests.get('http://github.com', allow_redirects=False)


  allow_redirects=False#设置这个属性为False则是不允许重定向,反之可以重定向


  如果使用的scrapy,那就在在设置里添加禁止重定向。


  REDIRECT_ENABLED


  REDIRECT_MAX_TIMES


  使用scrapy模块进行爬虫的时候遇到301很302问题。


python爬虫遇到301、302状态码怎么回事?


  这是在yield里面加上dont_filter=True,解决了这个问题,dont_filter的意思是,如果已经爬取过得url,也就是没有出现问题的url,自然而然出现问题的url将会再次被传递,这样也就解决了重定向问题。


  只要找到问题,便能对症下药,不然也是干着急,也解决不了。网站的反爬虫比较多,不仅是遇到这些问题,还有学会处理IP限制,验证码问题,动态加载等等。


相关文章内容简介
推荐阅读
  • 10 2019-01
    爬虫用代理IP突破限制就能高枕无忧了吗

    代理IP可以说是爬虫的好帮手,不管是什么的项目,都需要用到代理IP进行访问的突破,否则爬虫无法进行大量的采集工作。爬虫用代理IP突破限制就能高枕无忧了吗?

  • 17 2019-06
    国内ip代理支持手机使用吗?

    国内ip代理支持手机使用吗?现在手机的使用非常广,好多人还几部手机的,手机出了满足日常的生活外,越来越多的人也用于工作。如果手机需要更换IP地址,那么国内ip代理支持手机使用吗?

  • 10 2019-08
    代理IP从安全角度选哪种

    代理IP也分类别的,如果代理IP从安全角度选哪种?通常我们一般把代理IP分为四个类型,“透明代理,匿名代理,高匿代理,混淆代理”,代理IP从安全程度上来说,又将这四种代理类型的排序

  • 17 2019-09
    代理IP的用途以及伪装原理

    通过用代理IP来伪装成为别的IP我们听得多,但是这是怎么做到的?为什么用了代理就能够实现这一次操作呢?还有有哪些地方是非要用到代理IP不可的,IP代理有什么用途呢?

  • 18 2019-04
    使用爬虫代理的常见问题有哪些?

    使用爬虫代理的常见问题有哪些?大家对爬虫代理的了解有多少呢?在使用爬虫代理的过程中都会遇到哪些问题呢?我们一起来了解下。

  • 19 2019-04
    机灵代理是采集数据的优质爬虫代理

    机灵代理是采集数据的优质爬虫代理,备受用户的喜爱。并且越来越多的人选择进行采集数据了,选择一个优质爬虫代理,无疑是提高工作效率的好方法。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部