您的位置:首页 > 新闻资讯 >文章内容
代理IP知识:爬虫有几种网页搜索策略?
来源:互联网 作者:admin 时间:2019-09-10 10:14:53

  互联网的高速发展,产生了不少新技术,代理IP的广泛应用,促进了爬虫的发展。搜索引擎的诞生,让人们的网络变得更加饱满,网络爬虫作为搜索引擎技术最为基础的一个部分,它会有哪些策略让爬虫优先去爬取权重高的网页呢。


代理IP知识:爬虫有几种网页搜索策略


  目前主流的网页搜索策略主要有三,即:深度优先、广度优先、最佳优先。


  1、 深度优先


  即从起始网页开始,选择一个URL,进入,分析这个网页中的URL,选择一个再进入。如此一个链接一个链接地深入追踪下去,处理完一条路线之后再处理下一条路线。


  该类爬虫设计时较为简单。然而深度优先型网络爬虫存在一个问题:门户网站提供的链接往往最具价值,PageRank也很高,而每深入一层,网页价值和PageRank都会相应地有所下降。这暗示了重要网页通常距离种子较近,而过度深入抓取到的网页却价值很低。


  由于这个缺陷,广度优先策略产生了。


  2、广度优先(又称宽度优先)


  即从起始网页开始,抓取其中所有链接的网页,然后从中选择一个,继续抓取该网页中的所有链接页面。


  网络爬虫在抓取网页时普遍采用这种策略,这其中有两个原因:


  第一,万维网的实际深度最大能达到17层,网页之间四通八达,因此存在从一个网页到另一个网页的最短路径问题。如果采用深度优先,则有可能从一个PageRank很低的网页爬取到一个PageRank实际很高的网页,不方便计算PageRank。


  第二,采用宽度优先策略有利于多个爬虫并行爬取。这种多爬虫合作抓取通常是先抓取站内链接,遇到站外连接就爬出去,抓取的封闭性很强。


  广度优先策略的优点在于其设计和实现相对简单,且这种策略的基本思想是:与种子在一定距离内的网页重要度较高,符合实际。


  在聚焦爬虫的应用中,广度优先策略可以与网页过滤技术结合,即先用广度优先抓取一些网页,再将其中与主题无关的过滤掉。但这种方法的缺点是随着抓取网页的增多,算法的效率会变低。


  另外,还有一种常用于聚焦爬虫的网页搜索策略——最佳优先策略。


  最佳优先,即按照某种网页分析算法预测候选URL与目标网页的相似度,或主题的相关性,并选取其中评价最好的一个或几个URL进行进一步的爬取。


  这种策略的缺陷是可能会有很多相关网页被忽略,但相对的,这种策略可以将无关网页数量降低30%—90%


  为了资源利用率的最大化,以上3种策略爬虫会利用来对于网页爬取。


相关文章内容简介
推荐阅读
  • 29 2020-06
    如何使用HTTP代理IP

    HTTP代理网络服务器处于客户机和集群服务器,既能向网络服务器提供各式各样服务乞求,又能接受客户机明确指出的申办并提供相对性的服务。因此,从云服务器角度看,HTTP代理网络服务器是

  • 26 2019-06
    代理IP是不是高匿重要吗?

    代理IP是不是高匿重要吗?代理根据匿名程度来分的话,可以分了透明代理,普通匿名代理,还有高匿名代理的,这几个有什么区别呢?

  • 13 2019-06
    怎么知道爬虫代理好不好用

    怎么知道爬虫代理好不好用?做数据采集的非常讲究爬虫代理的质量,如果这爬虫代理的质量不好,影响会非常大。但是有个问题很关键,怎么知道爬虫代理好不好用呢?

  • 20 2019-11
    网络爬虫用什么?是代理IP还是VPS?

    现在互联网爬虫非常普遍,即便是个人用户也能够通过网络教程来开展一些小抓取项目,这么一来,代理IP的应用也更加能够得到普及。

  • 20 2020-02
    代理ip刷阅读量可行吗

    网络推广是被线上产品提高知名度的一种宣传方式,那么就会发一些关于自己产品为中心的优势功能等的软网,还有一些作者写一些文章没有流量,阅读量太少,很多阅读者不会点击打开阅读文

  • 18 2019-05
    滥用代理IP后果

    滥用代理IP后果,很少人会关注,都是看着别人用得好,自己也想用。而毫无章法的使用,其效果使真的使一言难尽。举个例子:

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部