您的位置:首页 > 新闻资讯 >文章内容
爬虫偶尔遇到301和302状态码,这是什么问题?
来源:互联网 作者:admin 时间:2019-04-08 17:02:00

  爬虫运行中是经常会遇到一些问题的,比如说,爬虫偶尔遇到301和302状态码,这是什么问题?对于这些问题,是如何解决的呢?


  其实301和302状态码都表示重定向,就是说浏览器在拿到服务器返回的这个状态码后会自动跳转到一个新的URL地址,这个地址可以从响应的Location首部中获取(用户看到的效果就是他输入的地址A瞬间变成了另一个地址B)。


  不过301和302状态码不太一样:


  301重定向/跳转一般,表示本网页永久性转移到另一个地址。301是永久性转移(Permanently Moved),SEO常用的招式,会把旧页面的PR等信息转移到新页面。


  302重定向表示临时性转移(Temporarily Moved ),当一个网页URL需要短期变化时使用。


爬虫偶尔遇到301和302状态码,这是什么问题?


  301和302状态码的区别:


  他们的不同在于,301表示旧地址A的资源已经被永久地移除了(这个资源不可访问了),搜索引擎在抓取新内容的同时也将旧的网址交换为重定向之后的网址;302表示旧地址A的资源还在(仍然可以访问),这个重定向只是临时地从旧地址A跳转到地址B,搜索引擎会抓取新的内容而保存旧的网址。


  通俗来讲,当一个网站或者网页24—48小时内临时移动到一个新的位置,这时候就要进行302跳转,打个比方说,我有一套房子,但是最近走亲戚去亲戚家住了,过两天我还回来的。而使用301跳转的场景就是之前的网站因为某种原因需要移除掉,然后要到新的地址访问,是永久性的,就比如你的那套房子其实是租的,现在租期到了,你又在另一个地方找到了房子,之前租的房子不住了。


  为什么要进行重定向:


  一般是由于网站调整(如改变网页目录结构);网页被移到一个新地址;网页扩展名改变(如应用需要把.php改成.Html或.shtml)。


  这种情况下,如果不做重定向,则用户收藏夹或搜索引擎数据库中旧地址只能让访问客户得到一个404页面错误信息,访问流量白白丧失;再者某些注册了多个域名的网站,也需要通过重定向让访问这些域名的用户自动跳转到主站点等。


  综上可知,爬虫偶尔遇到301和302状态码时不要惊慌,代理IP并没有失效,爬虫的身份也并没有被发现,只是这内容被转移了,还是可以继续爬取的。


相关文章内容简介
推荐阅读
  • 07 2019-11
    web内容以及响应机制

    我们每天都通过互联网来完成很多工作,但是却对互联网的响应机制了解得很少。代理IP今天跟大家介绍有关web服务器的信息,希望让大家对网络了解更多。

  • 12 2019-04
    http代理可以通过API提取IP吗?

    http代理可以通过API提取IP吗?有时我们使用代理IP的时候,都想能不能再快点提取,一个一个来太慢了,有没有什么方法可以批量提取的呢?

  • 16 2019-04
    PLPY4月榜单官宣,Python躺赢,实力甩下Java和C

    Python被称为胶水语言,但是与人工智能、大数据捆绑在一起的Python,越来越炽手可热了。PLPY4月榜单官宣,Python躺赢,再度“夺”冠,实力甩下Java和C!

  • 16 2019-07
    抓取免费http代理教程

    抓取免费http代理教程介绍,如果想要抓取免费http代理,不想花钱租用http代理ip池使用,这就需要麻烦些,要自己写程序进行抓取检测之类的,我们来看看抓取免费http代理教程。

  • 30 2019-12
    如何选择爬虫代理ip​?

    如何选择爬虫代理ip​?随着互联网大数据的迅速发展,网络爬虫也是需要一直提升技术来适应全面更新的要求,作为网络爬虫来讲,重要的来源于数据信息采集,那么选择稳定的代理ip是爬虫的

  • 13 2019-04
    伪装IP地址,机灵代理出马可以换国内IP

    伪装IP地址,这有难度吗?随着互联网的普及,人们每天都在与互联网打交道。我们都知道Internet访问需要IP地址,否则将无法访问Internet。即使您使用无线网络,也需要分配IP地址以连接到Internet

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部