您的位置:首页 > 新闻资讯 >文章内容
python爬虫遇到301、302状态码怎么回事?
来源:互联网 作者:admin 时间:2019-04-01 16:57:48

  每个网站的反爬虫机制不一样,而且网站也是有变化的,因此爬虫在爬取的过程中是经常会遇到问题的,今天讲下关于爬虫遇到的301、302的问题。


  这些状态码出现时,很大程度的影响到我们的爬虫速度和信息的准确性,那么如何去处理呢?


python爬虫遇到301、302状态码怎么回事?


  这些状态码的意思以及应对方法:


  302:请求到的资源在一个不同的URL处临时保存。


  处理方式:重定向到临时的URL。


  301:请求到的资源都会分配一个永久的URL,这样就可以在将来通过该URL来访问此资源。


  处理方式:重定向到分配的URL。


  300:该状态码不被HTTP/1.0的应用程序直接使用,只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。


  处理方式:若程序中能够处理,则进行进一步处理,如果程序中不能处理,则丢弃。


  针对不同的模块给出不同的解决方案:


  在使用python爬虫的过程中难免会遇到很多301,302的问题。


  使用requests模块爬虫


  使用requests模块遇到301和302问题时,


  如果是用requests,那就在参数里面关闭重定向。


  >>> r = requests.get('http://github.com', allow_redirects=False)


  allow_redirects=False#设置这个属性为False则是不允许重定向,反之可以重定向


  如果使用的scrapy,那就在在设置里添加禁止重定向。


  REDIRECT_ENABLED


  REDIRECT_MAX_TIMES


  使用scrapy模块进行爬虫的时候遇到301很302问题。


python爬虫遇到301、302状态码怎么回事?


  这是在yield里面加上dont_filter=True,解决了这个问题,dont_filter的意思是,如果已经爬取过得url,也就是没有出现问题的url,自然而然出现问题的url将会再次被传递,这样也就解决了重定向问题。


  只要找到问题,便能对症下药,不然也是干着急,也解决不了。网站的反爬虫比较多,不仅是遇到这些问题,还有学会处理IP限制,验证码问题,动态加载等等。


相关文章内容简介
推荐阅读
  • 07 2020-02
    那种类型的代理ip最好

    我们都知道,代理ip有不同的类型,代理IP的类型分别是透明代理IP、匿名代理IP、高匿名代理IP、混淆代理IP。那么在实际应用中应该使用哪种代理ip?

  • 06 2019-05
    代理IP支持快速更换IP进行流量点击

    代理IP支持快速更换IP进行流量点击,如今是个流量的时代,行业项目都需要获得大量的流量,尤其是娱乐界,影视行业,新媒体行业,电商行业等等。如果无法获得大量的流量,有些人也会通

  • 21 2019-02
    使用代理IP后,怎么速度变慢了?

    很多人使用代理IP,因为代理IP可以解决IP限制的问题,同时还是隐藏IP,加速网络,所以不管是做网络营销还是做网赚,或者是大数据收集,还是玩游戏都是可以使用代理IP来实现的,但是有个

  • 20 2019-05
    代理服务器伪IP地址

    代理服务器伪IP地址,这样可以有效的节约网上资源,即用代理服务器可以减少对IP地址的需求,对于使用局域网方式接入Internet,如果为局域网(LAN)内的每一个用户都申请一个IP地址,其费用

  • 09 2019-10
    phantomjs怎么设置代理IP?

    java使用selenium,phantomjs进行模拟浏览器访问,请问如何在不重新启动phantomjs的情况下修改代理IP?查阅了相关资料,selenium 官方文档都没有说明,想必是不支持的,那么我们不妨考虑直接用 phantomjs

  • 20 2019-08
    用动态IP游戏号会被封吗?

    广大玩家和游戏工作室都会遇到封号问题,严重甚至会被“拉黑”,一旦违反平台规则被封号,之前投入的时间、精力就白费了。由于每个游戏平台会有不同的地方,那么我们应该怎么才能高效

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部