您的位置:首页 > 新闻资讯 >文章内容
python爬虫遇到301、302状态码怎么回事?
来源:互联网 作者:admin 时间:2019-04-01 16:57:48

  每个网站的反爬虫机制不一样,而且网站也是有变化的,因此爬虫在爬取的过程中是经常会遇到问题的,今天讲下关于爬虫遇到的301、302的问题。


  这些状态码出现时,很大程度的影响到我们的爬虫速度和信息的准确性,那么如何去处理呢?


python爬虫遇到301、302状态码怎么回事?


  这些状态码的意思以及应对方法:


  302:请求到的资源在一个不同的URL处临时保存。


  处理方式:重定向到临时的URL。


  301:请求到的资源都会分配一个永久的URL,这样就可以在将来通过该URL来访问此资源。


  处理方式:重定向到分配的URL。


  300:该状态码不被HTTP/1.0的应用程序直接使用,只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。


  处理方式:若程序中能够处理,则进行进一步处理,如果程序中不能处理,则丢弃。


  针对不同的模块给出不同的解决方案:


  在使用python爬虫的过程中难免会遇到很多301,302的问题。


  使用requests模块爬虫


  使用requests模块遇到301和302问题时,


  如果是用requests,那就在参数里面关闭重定向。


  >>> r = requests.get('http://github.com', allow_redirects=False)


  allow_redirects=False#设置这个属性为False则是不允许重定向,反之可以重定向


  如果使用的scrapy,那就在在设置里添加禁止重定向。


  REDIRECT_ENABLED


  REDIRECT_MAX_TIMES


  使用scrapy模块进行爬虫的时候遇到301很302问题。


python爬虫遇到301、302状态码怎么回事?


  这是在yield里面加上dont_filter=True,解决了这个问题,dont_filter的意思是,如果已经爬取过得url,也就是没有出现问题的url,自然而然出现问题的url将会再次被传递,这样也就解决了重定向问题。


  只要找到问题,便能对症下药,不然也是干着急,也解决不了。网站的反爬虫比较多,不仅是遇到这些问题,还有学会处理IP限制,验证码问题,动态加载等等。


相关文章内容简介
推荐阅读
  • 15 2019-05
    换IP地址刷量适合于直播行业吗?

    换IP地址刷量适合于直播行业吗?近几年直播平台发展非常火爆,直播已经成为当下时代的一种潮流,无论你在哪,肯定都会发现身边的人在玩直播。很多有才艺的主播们投身于直播事业当中,

  • 22 2019-03
    如何获得大量的IP资源?分享几种获取IP资源的方式

    IPV4的IP地址早分完了,目前IP资源还是非常紧缺的,因此IP地址一直是各种平台最重要的风控方案之一。面对攻击,最主流防控措施之一就是封IP,企业根据黑IP库、同IP发起请求次数、密码错误

  • 02 2020-09
    换IP软件对我们的帮助

    时代的发展瞬息万变,互联网的发展日新月异,“互联网+”成为了一种主流的思潮,越来越多传统行业嫁接互联网已是迫在眉睫之举。互联网的出现给工作生活带来了很多方便,使得工作效率

  • 08 2019-11
    3方面区分线程IP、动态IP

    线程IP跟动态IP有什么不同?代理IP选择什么类型的IP合适?我们下面就来了解线程IP池跟普通动态转发的不同之处。

  • 26 2019-03
    IP代理服务器怎样才能够满足客户的需求呢?

    这几年来代理服务器的发展越来越迅速,很多人都掌握了网络托管的常识,在办理网站时服务器也是必不可少的,而且代理服务器网站为客户提供资源选择使代理服务器随着市场的竞争变得越来

  • 30 2020-01
    代理ip被拒绝访问怎么办

    一般运用代理IP​攻克IP受限,但偶尔使用代理依然拒绝访问,这是怎么回事呢?怎么会出现这样的情况?是由于代理IP的问题吗?怎样检查拒绝访问的原因呢?

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部