您的位置:首页 > 新闻资讯 >文章内容
html标签干扰爬虫破解方法
来源:互联网 作者:admin 时间:2019-10-04 10:15:00

  不同的网站采用不一样的反爬虫方法,这个时候就需要我们爬虫工程师去进行好好研究了。针对每一种不同的方案,我们都能够找到一个突破口,这样才是爬虫的正确姿态。代理IP下面跟大家说说html标签干扰怎么破。


html标签干扰爬虫破解方法


  html标签干扰


  通过在重要数据的标签里加入一些有的没的隐藏内容的标签,干扰数据的获取。


  如例子:xxIP代理平台


  <!--html-->

  <td class="ip">

  <p style="display:none;">2</p>

  <span>2</span>

  <span style="display:inline-block;"></span>

  <div style="display: inline-block;">02</div>

  <p style="display:none;">.1</p>

  <span>.1</span>

  <div style="display:inline-block;"></div>

  <span style="display:inline-block;"></span>

  <div style="display:inline-block;">09</div>

  <span style="display: inline-block;">.</span>

  <span style="display:inline-block;">23</span>

  <p style="display:none;">7</p>

  <span>7</span>

  <p style="display:none;"></p>

  <span></span>

  <span style="display: inline-block;">.</span>

  <div style="display: inline-block;"></div>

  <p style="display:none;">3</p>

  <span>3</span>

  <div style="display: inline-block;">5</div>:

  <span class="port GEA">80</span>

  </td>

  <!--js-->

  <script>

  $(".ip:eq(0)>*:hidden").remove()

  $(".ip:eq(0)").text()

  </script>

  <!--

  输出:202.109.237.35:80


  通过移除干扰标签里有display:none隐藏标签,然后再获取text就不会有干扰的内容了


  -->

  破解思路:


  过滤掉干扰混淆的HTML标签,或者只读取有效数据的HTML标签的内容。


  以上就是具体的操作方案,机灵代理,自建200+机房,数万拨号线路,提供企业级HTTP代理服务,IP覆盖全国200+城市,高匿名代理IP帮助你保护个人隐私。无论是网络爬虫、互联网营销、投票打榜都可以使用。


相关文章内容简介
推荐阅读
  • 10 2019-05
    IP代理池支持数据大规模抓取

    IP代理池支持数据大规模抓取,不然单靠单个IP是容易出问题的,大家都明白,短时间内访问一个网站几十次后肯定会被屏蔽的。每个网站对IP的解封策略也不一样,有的1小时候后又能重新访问

  • 06 2019-05
    http代理质量对python爬虫有影响吗?

    http代理质量对python爬虫有影响吗?由于大数据时代的到来,使用爬虫的去抓取信息的时候越来越多,而爬虫需要使用http代理的,这对http代理有什么要求呢?质量会不会有影响呢?

  • 08 2019-06
    代理ip池维护的效果不好怎么办

    代理ip池维护的效果不好怎么办?使用代理ip的方法有很多,代理ip的用途也多,代理ip的来源也多,但是如果自己抓取网络的ip进行搭建ip池,这维护效果不怎么好,这是怎么回事呢?

  • 03 2019-10
    用代理IP刷IP的原理

    如果你是从事网络营销相关工作,那么今天机灵代理给大家介绍的这篇文章内容就不可以错过了。像我们在为网站刷流量、投票活动刷票,这类营销行为,需要用到代理IP来帮助。能够实现刷IP

  • 21 2019-08
    为什么都说独享IP比同享IP好?

    用过代理IP的可能都会有一个疑问,独享IP和同享IP具体有什么不同,如果我只是个人普通使用又或是企业使用,要选择哪一种比较好呢?下面我们来看看这两种IP有什么区别。

  • 30 2019-04
    爬虫代理一定要选择高匿名

    爬虫代理一定要选择高匿名,为什么这么说呢?因为爬虫需要隐藏好身份才能获取到数据,如果没有隐藏好,分分钟被识破,自然是无用功了。我们来看看不能选择透明代理和匿名代理的原因。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部