您的位置:首页 > 新闻资讯 >文章内容
用代理IP解决爬虫被禁
来源:互联网 作者:admin 时间:2019-09-03 10:23:28

  爬虫IP被禁一直让爬虫工作者非常头痛,爬虫与反爬虫一直在斗智斗勇。反爬技术一改良,爬虫的新解决方法就会被研究出来。代理IP就是其中用得比较多的一种,下面来看看还有哪些方法可以解决。


用代理IP解决爬虫被禁


  1、user_agent 伪装和轮换


  不同浏览器的不同版本都有不同的user_agent,是浏览器类型的详细信息,也是浏览器提交Http请求的重要头部信息。我们可以在每次请求的时候提供不同的user_agent,绕过网站检测客户端的反爬虫机制。比如说,可以把很多的user_agent放在一个列表中,每次随机选一个用于提交访问请求。


  2、设置访问时间间隔


  很多网站的反爬虫机制都设置了访问间隔时间,一个IP如果短时间内超过了指定的次数就会进入“冷却CD”,所以除了轮换IP和user_agent


  可以设置访问的时间间间隔长一点,比如没抓取一个页面休眠一个随机时间。


  3、使用代理IP和轮换


  检查ip的访问情况是网站的反爬机制最喜欢也最喜欢用的方式。这种时候就可以更换不同的ip地址来爬取内容。当然,你有很多有公网ip地址的主机或者vps是更好的选择,如果没有的话就可以考虑使用代理,让代理服务器去帮你获得网页内容,然后再转发回你的电脑。代理按透明度可以分为透明代理、匿名代理和高度匿名代理:


  透明代理:目标网站知道你使用了代理并且知道你的源IP地址,这种代理显然不符合我们这里使用代理的初衷。


  匿名代理:匿名程度比较低,也就是网站知道你使用了代理,但是并不知道你的源IP地址。


  高匿代理:这是最保险的方式,目标网站既不知道你使用的代理更不知道你的源IP。


  代理的获取方式可以去购买,当然也可以去自己爬取免费的,但是免费的代理通常不够稳定。


  以上的方法都是比较简单的基础操作,上手起来并不难,各位爬虫工作者可以进行实验。


相关文章内容简介
推荐阅读
  • 11 2021-02
    介绍下如何使用IP代理

    有时候我们上网的时候需要换IP代理才能上,比如一些网站要求IP地址必须是某些地区的,否则无法登陆,还有一些用户需要一些IP代理来因此自己本身的IP,那么今天小编就来图文介绍下如何使

  • 04 2019-09
    Python爬虫怎么减少被封?

    网站反爬虫机制让不少爬虫工作者非常头痛,总是爬虫爬到一半就被封掉,手中能用的IP越来越少,不过这个问题一般用代理IP就能解决。想要爬虫的时候减少被发现的概率,那么你需要做到以

  • 16 2019-05
    网民使用http代理保护隐私安全

    网民使用http代理保护隐私安全,关于隐私安全,之前是非法的窃取,或者是高价获得,但是现在技术进步之后,很多APP都能够直接获取到你的手机隐私,那么我们应该如何保护自己的隐私安全

  • 06 2020-11
    http代理类型都有什么区别

    在进行购买http代理的时候经常会见到有许多不同类型的代理提供选择,一些新手不知道该买哪种类型的http代理会比较好,机灵代理下面就为大家提供一些关于http代理类型的区别,希望能够给大

  • 29 2019-04
    构建代理ip池的IP来源途径

    构建代理ip池的IP来源途径有哪些?使用爬虫程序都免不了出现问题的,有时候爬得正高兴呢,出现了一连串错误信息,查看后发现因为爬取太过频繁,被网站封了ip,那时起就有了构建代理ip池

  • 10 2019-10
    代理IP的使用用途

    代理IP的功能如何如何强大,这些已经被代理服务商介绍宣传得差不多了。但是其实代理IP的用途还是比较模糊,爬虫是大家都比较清楚的,因为一般都会把这一项作为宣传点来推广。机灵代理

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部