您的位置:首页 > 新闻资讯 >文章内容
动态ip代理解决不了抓取问题,哪里出问题了?
来源:互联网 作者:admin 时间:2019-03-20 16:43:09

  网络爬虫配上动态IP代理,基本上都能顺利的抓取到信息,因为使用了动态IP代理就可以解决频率限制的问题,可以一直进行数据的抓取工作。但有时候,即使使用了动态IP代理,还是出问题了,到底哪里出问题了?


  1.从用户请求的Headers反爬虫是最常见的反爬虫策略。很多网站都会对Headers的User-Agent进行检测,还有一部分网站会对Referer进行检测(一些资源网站的防盗链就是检测Referer)。


  解决方案:伪装成浏览器去访问网页资源,因此只需要在http请求头加上头信息即可。


  2.还有一部分网站是通过检测用户行为,例如同一IP短时间内多次访问同一页面,或者同一账户短时间内多次进行相同操作。


  解决方案:大多数网站都是前一种情况,对于这种情况,使用IP代理就可以解决。可以专门写一个爬虫,爬取网上公开的代理ip,检测后全部保存起来。这样的代理ip爬虫经常会用到,最好自己准备一个。有了大量代理ip后可以每请求几次更换一个ip,这在requests或者urllib2中很容易做到,这样就能很容易的绕过第一种反爬虫。使用代理IP步骤如下图:


动态ip代理解决不了抓取问题,哪里出问题了?


  如下代码,百度的三个代理,使用ip代理。


动态ip代理解决不了抓取问题,哪里出问题了?


  对于第二种情况,可以在每次请求后随机间隔几秒再进行下一次请求(time.sleep函数)。有些有逻辑漏洞的网站,可以通过请求几次,退出登录,重新登录,继续请求来绕过同一账号短时间内不能多次进行相同请求的限制。


  3.另外一种比较常见的反爬虫模式当属采用JS渲染页面了。什么意思呢,就是返回的页面并不是直接请求得到,而是有一部分由JS操作DOM得到,所以那部分数据我们也拿不到咯。


  解决方案:用js引擎渲染;另一种就是分析js获取数据的接口,分开获取。


  4.最为经典的反爬虫策略当属“验证码”了。因为验证码是图片,用户登录时只需输入一次便可录成功,而我们程序抓取数据过程中,需要不断的登录,手动输入验证码是不现实的,所以验证码的出现难倒了一大批人。


  解决方案:验证码识别工具,或者人工打码。


  5.还有一种比较普通的反爬虫策略:通过cookie限制抓取信息,比如我们模拟登陆之后,想拿到登陆之后某页面信息,千万不要以为模拟登陆之后就所有页面都可以抓了,有时候还需要请求一些中间页面拿到特定cookie,然后才可以抓到我们需要的页面。


  解决方案:要在一个网站上持续保持登录状态,需要在多个页面中保存一个cookie。有些网站不要求在每次登录时都获得一个新cookie,只要保存一个旧的“已登录”的cookie就可以访问。如果你在采集一个或者几个目标网站,建议你检查这些网站生成的cookie,然后想想哪一个cookie是爬虫需要处理的。有一些浏览器插件可以为你显示访问网站和离开网站时cookie是如何设置的。


  当动态ip代理解决不了抓取问题时,我们需要考虑其他的反爬虫,比如上文介绍的这些反爬虫,如果其中一个出现问题,也会暴露的,导致动态ip代理失效,因此要注意。


相关文章内容简介
推荐阅读
  • 01 2019-07
    同IP地址高频率访问网站会被封

    同IP地址访问网站过于频率会被封,因此若是想要频繁访问网站,首先要解决单IP地址的问题,简单的说,需要使用代理IP来解决身份问题,代理就是换个身份,网络中的身份之一就是IP。

  • 26 2019-03
    代理服务IP是不是独立服务器?

    现如今网站上所流通的代理服务IP大多都是独立的服务器,可以供客户在自己独立的网站上使用,但是有一点需要注意的是代理服务器IP需要客户从服务商那里租用或者购买,其购买的价格较贵

  • 03 2019-06
    中国代理IP对于数据爬取的作用

    中国代理IP对于数据爬取的作用,就目前来说,大部分的爬虫还是离不开中国代理IP的,因为其可以提供大量的IP地址来进行切换,满足突破IP限制的需求。数据爬虫一般都属于专属爬虫工作者的

  • 03 2019-06
    Socks5代理功能的设置方法

    有些游戏可以设置代理功能的,例如逆水寒,可以设置Socks5代理使用,那么这Socks5代理功能的设置方法是如何的呢?

  • 23 2019-03
    爬虫代理IP选择,使用动态转发代理更可靠

    虽然说大数据的应用很多时候都没有保护好用户的信息,但大部分的企业依然都会使用到爬虫来获取很多的数据,即使有限制,也一样可以利用代理IP来突破的,无非就是要花些成本,找个好用

  • 18 2019-07
    邮件营销记得用ip代理软件

    邮件营销记得用ip代理软件,因为这样可以避免被当作垃圾邮件,如果被系统当做垃圾邮件,这样你所发给用户的邮件都被扔到垃圾箱了。估计用户也不会跑到垃圾箱翻你的营销邮件了。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部