您的位置:首页 > 新闻资讯 >文章内容
python爬虫遇到301、302状态码怎么回事?
来源:互联网 作者:admin 时间:2019-04-01 16:57:48

  每个网站的反爬虫机制不一样,而且网站也是有变化的,因此爬虫在爬取的过程中是经常会遇到问题的,今天讲下关于爬虫遇到的301、302的问题。


  这些状态码出现时,很大程度的影响到我们的爬虫速度和信息的准确性,那么如何去处理呢?


python爬虫遇到301、302状态码怎么回事?


  这些状态码的意思以及应对方法:


  302:请求到的资源在一个不同的URL处临时保存。


  处理方式:重定向到临时的URL。


  301:请求到的资源都会分配一个永久的URL,这样就可以在将来通过该URL来访问此资源。


  处理方式:重定向到分配的URL。


  300:该状态码不被HTTP/1.0的应用程序直接使用,只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。


  处理方式:若程序中能够处理,则进行进一步处理,如果程序中不能处理,则丢弃。


  针对不同的模块给出不同的解决方案:


  在使用python爬虫的过程中难免会遇到很多301,302的问题。


  使用requests模块爬虫


  使用requests模块遇到301和302问题时,


  如果是用requests,那就在参数里面关闭重定向。


  >>> r = requests.get('http://github.com', allow_redirects=False)


  allow_redirects=False#设置这个属性为False则是不允许重定向,反之可以重定向


  如果使用的scrapy,那就在在设置里添加禁止重定向。


  REDIRECT_ENABLED


  REDIRECT_MAX_TIMES


  使用scrapy模块进行爬虫的时候遇到301很302问题。


python爬虫遇到301、302状态码怎么回事?


  这是在yield里面加上dont_filter=True,解决了这个问题,dont_filter的意思是,如果已经爬取过得url,也就是没有出现问题的url,自然而然出现问题的url将会再次被传递,这样也就解决了重定向问题。


  只要找到问题,便能对症下药,不然也是干着急,也解决不了。网站的反爬虫比较多,不仅是遇到这些问题,还有学会处理IP限制,验证码问题,动态加载等等。


相关文章内容简介
推荐阅读
  • 17 2019-03
    防止游戏封号的几种方法,使用代理IP效果更好

    游戏封号对于玩家来说,这是非常严重的问题,如果被封号了,这些辛苦都白费了,关键还没有任何的收获,因此想要玩好游戏不被封号,就要多注意一些封号的信息,避免犯了这些问题而导致

  • 10 2020-11
    网络游戏怎么切换IP

    玩游戏时IP被封是一件非常苦恼的事情,为了避免玩游戏时IP被封,就得遵守游戏规则,但想要多开账号玩,就会被限制,想要不被封IP,就会只能更换地址,不懂的账号使用不同的IP,就能避免

  • 26 2020-08
    代理ip可以保护隐私

    从使用代理ip的隐藏级别来看,代理分为三种:高匿名代理、普通匿名代理、透明代理

  • 13 2019-05
    代理IP的作用和分类

    代理IP的作用和分类,知道的人有多少?尽管代理IP的使用非常广泛,并且使用它的人数在增加,但仍有许多新手不了解代理IP的作用,有哪些类型?我们今天讨论代理IP的分类。

  • 08 2019-07
    租用代理ip的一些技巧

    租用代理ip的一些技巧,如果学到了,这对于我们选择代理ip非常有好处的。下面我们来看下吧:

  • 08 2020-08
    代理ip软件给我们的帮助

    未来代理ip还会不会进一步扩大它的使用场景,这个问题我相信大家心中都有自己的看法。就目前而言,我们可以看到目前市面上的代理ip市场是不断在扩大的。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部