您的位置:首页 > 新闻资讯 >文章内容
代理IP知识:爬虫有几种网页搜索策略?
来源:互联网 作者:admin 时间:2019-09-10 10:14:53

  互联网的高速发展,产生了不少新技术,代理IP的广泛应用,促进了爬虫的发展。搜索引擎的诞生,让人们的网络变得更加饱满,网络爬虫作为搜索引擎技术最为基础的一个部分,它会有哪些策略让爬虫优先去爬取权重高的网页呢。


代理IP知识:爬虫有几种网页搜索策略


  目前主流的网页搜索策略主要有三,即:深度优先、广度优先、最佳优先。


  1、 深度优先


  即从起始网页开始,选择一个URL,进入,分析这个网页中的URL,选择一个再进入。如此一个链接一个链接地深入追踪下去,处理完一条路线之后再处理下一条路线。


  该类爬虫设计时较为简单。然而深度优先型网络爬虫存在一个问题:门户网站提供的链接往往最具价值,PageRank也很高,而每深入一层,网页价值和PageRank都会相应地有所下降。这暗示了重要网页通常距离种子较近,而过度深入抓取到的网页却价值很低。


  由于这个缺陷,广度优先策略产生了。


  2、广度优先(又称宽度优先)


  即从起始网页开始,抓取其中所有链接的网页,然后从中选择一个,继续抓取该网页中的所有链接页面。


  网络爬虫在抓取网页时普遍采用这种策略,这其中有两个原因:


  第一,万维网的实际深度最大能达到17层,网页之间四通八达,因此存在从一个网页到另一个网页的最短路径问题。如果采用深度优先,则有可能从一个PageRank很低的网页爬取到一个PageRank实际很高的网页,不方便计算PageRank。


  第二,采用宽度优先策略有利于多个爬虫并行爬取。这种多爬虫合作抓取通常是先抓取站内链接,遇到站外连接就爬出去,抓取的封闭性很强。


  广度优先策略的优点在于其设计和实现相对简单,且这种策略的基本思想是:与种子在一定距离内的网页重要度较高,符合实际。


  在聚焦爬虫的应用中,广度优先策略可以与网页过滤技术结合,即先用广度优先抓取一些网页,再将其中与主题无关的过滤掉。但这种方法的缺点是随着抓取网页的增多,算法的效率会变低。


  另外,还有一种常用于聚焦爬虫的网页搜索策略——最佳优先策略。


  最佳优先,即按照某种网页分析算法预测候选URL与目标网页的相似度,或主题的相关性,并选取其中评价最好的一个或几个URL进行进一步的爬取。


  这种策略的缺陷是可能会有很多相关网页被忽略,但相对的,这种策略可以将无关网页数量降低30%—90%


  为了资源利用率的最大化,以上3种策略爬虫会利用来对于网页爬取。


相关文章内容简介
推荐阅读
  • 11 2021-01
    代理ip的运用场景都有哪些

     假如你对这一方面很感兴趣,能够从下列层面开展掌握。代理ip关键用以数据爬虫收集,网店运营,SEO营销推广,网络刷票等主要用途,利用转变的代理动态性IP地址来提升反IP对策的封禁,进

  • 15 2019-01
    网络爬虫为什么被封了?

    网络爬虫通常用于搜索引擎中,都是非常受欢迎的,但有时候网络爬虫为什么被封了?网络爬虫被封,主要是因为企业使用网络爬虫来采集大量的数据,对方网站为了维护网站的正常运转,都会

  • 22 2020-06
    使用代理IP的一些基础知识

    使用代理IP有一些基础知识,我们还是要掌握比较好。不然对代理服务一知半解,很容易就会被一些不良商家的宣传给欺骗,套上一些看起来专业、高大上的术语,迷惑消费者。

  • 07 2020-08
    代理ip免费有风险

    在工作生活中,很多事情都是伴随着风险的,使用代理ip也不例外,相对于付费代理ip来讲,确实是免费代理ip风险大些,不过这不等于付费代理ip就没有风险了噢。

  • 04 2019-06
    Socks代理比其他代理快吗

    Socks代理比其他代理快吗?啥是socks5代理,可能还有很多人都不知道的,来我们简单说说。socks5代理采用socks协议的代理服务器就是SOCKS服务器,是一种通用的代理服务器。

  • 03 2019-04
    封锁IP破解--代理IP伪装不同用户

    如果遇到的网站反爬虫机制比较严,网络爬虫怎么入手爬取比较好?一般上来讲,只要利益大于成本,不管反爬虫机制有多严,网络爬虫都是有办法的,大不了多找些工具,把程序做好些。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部