您的位置:首页 > 新闻资讯 >文章内容
python爬虫遇到301、302状态码怎么回事?
来源:互联网 作者:admin 时间:2019-04-01 16:57:48

  每个网站的反爬虫机制不一样,而且网站也是有变化的,因此爬虫在爬取的过程中是经常会遇到问题的,今天讲下关于爬虫遇到的301、302的问题。


  这些状态码出现时,很大程度的影响到我们的爬虫速度和信息的准确性,那么如何去处理呢?


python爬虫遇到301、302状态码怎么回事?


  这些状态码的意思以及应对方法:


  302:请求到的资源在一个不同的URL处临时保存。


  处理方式:重定向到临时的URL。


  301:请求到的资源都会分配一个永久的URL,这样就可以在将来通过该URL来访问此资源。


  处理方式:重定向到分配的URL。


  300:该状态码不被HTTP/1.0的应用程序直接使用,只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。


  处理方式:若程序中能够处理,则进行进一步处理,如果程序中不能处理,则丢弃。


  针对不同的模块给出不同的解决方案:


  在使用python爬虫的过程中难免会遇到很多301,302的问题。


  使用requests模块爬虫


  使用requests模块遇到301和302问题时,


  如果是用requests,那就在参数里面关闭重定向。


  >>> r = requests.get('http://github.com', allow_redirects=False)


  allow_redirects=False#设置这个属性为False则是不允许重定向,反之可以重定向


  如果使用的scrapy,那就在在设置里添加禁止重定向。


  REDIRECT_ENABLED


  REDIRECT_MAX_TIMES


  使用scrapy模块进行爬虫的时候遇到301很302问题。


python爬虫遇到301、302状态码怎么回事?


  这是在yield里面加上dont_filter=True,解决了这个问题,dont_filter的意思是,如果已经爬取过得url,也就是没有出现问题的url,自然而然出现问题的url将会再次被传递,这样也就解决了重定向问题。


  只要找到问题,便能对症下药,不然也是干着急,也解决不了。网站的反爬虫比较多,不仅是遇到这些问题,还有学会处理IP限制,验证码问题,动态加载等等。


相关文章内容简介
推荐阅读
  • 17 2019-05
    高匿代理ip资源到底有什么用途

    即使科技发展快,但是还是有很多人都不知道,高匿代理ip资源到底有什么用途。曾经有人说过这是最好的时代,这也是最坏的时代。虽然高科技的发展为我们的社会带来了很多方便,为人们的

  • 08 2019-07
    http代理企业的高端定制

    http代理企业的高端定制,找机灵代理,这是一家国内支持专业定制的http代理商家。目前机灵代理拥有千万的IP池,支持多种使用模式,是众多项目的好助手。

  • 26 2019-08
    代理IP使用有什么好处?

    代理IP可能对于普通用户而言,使用率跟熟悉率都不高,通常是爬虫工作者或是某些项目需要大量不同IP才会利用到,可是代理IP的作用不仅仅如此,使用代理IP有什么好处呢?

  • 13 2019-08
    新手对代理IP比较疑惑的问题

    新手对代理IP比较疑惑的问题,这里列举了几个,新手可以来了解下,加深对代理IP的认识。

  • 08 2019-07
    怎么搭建个本地ip代理池?

    怎么搭建个本地ip代理池?要使用ip代理,直接找商家租用即可,怎么要自己搭建个ip代理池呢?

  • 12 2019-04
    HTTP代理的普通代理和隧道代理

    估计很多人都不认识HTTP代理,什么是HTTP代理?HTTP代理存在2种形式,即普通代理和隧道代理,这两个都有什么不同呢?下面为大家简单的介绍一下:

在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961