您的位置:首页 > 新闻资讯 >文章内容
爬虫偶尔遇到301和302状态码,这是什么问题?
来源:互联网 作者:admin 时间:2019-04-08 17:02:00

  爬虫运行中是经常会遇到一些问题的,比如说,爬虫偶尔遇到301和302状态码,这是什么问题?对于这些问题,是如何解决的呢?


  其实301和302状态码都表示重定向,就是说浏览器在拿到服务器返回的这个状态码后会自动跳转到一个新的URL地址,这个地址可以从响应的Location首部中获取(用户看到的效果就是他输入的地址A瞬间变成了另一个地址B)。


  不过301和302状态码不太一样:


  301重定向/跳转一般,表示本网页永久性转移到另一个地址。301是永久性转移(Permanently Moved),SEO常用的招式,会把旧页面的PR等信息转移到新页面。


  302重定向表示临时性转移(Temporarily Moved ),当一个网页URL需要短期变化时使用。


爬虫偶尔遇到301和302状态码,这是什么问题?


  301和302状态码的区别:


  他们的不同在于,301表示旧地址A的资源已经被永久地移除了(这个资源不可访问了),搜索引擎在抓取新内容的同时也将旧的网址交换为重定向之后的网址;302表示旧地址A的资源还在(仍然可以访问),这个重定向只是临时地从旧地址A跳转到地址B,搜索引擎会抓取新的内容而保存旧的网址。


  通俗来讲,当一个网站或者网页24—48小时内临时移动到一个新的位置,这时候就要进行302跳转,打个比方说,我有一套房子,但是最近走亲戚去亲戚家住了,过两天我还回来的。而使用301跳转的场景就是之前的网站因为某种原因需要移除掉,然后要到新的地址访问,是永久性的,就比如你的那套房子其实是租的,现在租期到了,你又在另一个地方找到了房子,之前租的房子不住了。


  为什么要进行重定向:


  一般是由于网站调整(如改变网页目录结构);网页被移到一个新地址;网页扩展名改变(如应用需要把.php改成.Html或.shtml)。


  这种情况下,如果不做重定向,则用户收藏夹或搜索引擎数据库中旧地址只能让访问客户得到一个404页面错误信息,访问流量白白丧失;再者某些注册了多个域名的网站,也需要通过重定向让访问这些域名的用户自动跳转到主站点等。


  综上可知,爬虫偶尔遇到301和302状态码时不要惊慌,代理IP并没有失效,爬虫的身份也并没有被发现,只是这内容被转移了,还是可以继续爬取的。


相关文章内容简介
推荐阅读
  • 18 2019-03
    代理服务器的作用,代理IP的用途介绍

    使用代理服务器的机会不多,很多人都不知道这是什么来着。其实很多时候,我们都使用了代理服务器,只是你不知道而已,那么代理服务器都有什么作用?代理服务器与代理IP有什么关系?代

  • 04 2019-12
    代理IP池支撑爬虫运作

    大数据的爬虫背后,是需要一个稳定、IP质量好的代理IP池来支撑运行的。如果没有这个代理IP池,那么爬虫就很容易受到网站反爬虫的阻拦。

  • 03 2019-06
    用了ip代理服务器软件打不开网页

    用了ip代理服务器软件打不开网页,这是怎么回事呢?到底是ip代理服务器软件有问题,是什么原因呢?

  • 13 2019-06
    想大量发帖如何突破IP限制

    想大量发帖如何突破IP限制?很多平台为了用户体验,以及自身的利益,很多都是有限制的,例如IP限制,这是比较常见的。

  • 10 2019-09
    代理IP知识:爬虫有几种网页搜索策略?

    互联网的高速发展,产生了不少新技术,代理IP的广泛应用,促进了爬虫的发展。搜索引擎的诞生,让人们的网络变得更加饱满,网络爬虫作为搜索引擎技术最为基础的一个部分,它会有哪些策

  • 17 2019-06
    优质http代理商家推荐

    优质http代理商家推荐,找个非常好的http代理可不容易了,很多商家都是有各种的问题,总之用不长久的,经常换http代理很麻烦,有没有好用的呢?今天小编就来给大家说下优质http代理商家推

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部