您的位置:首页 > 新闻资讯 >文章内容
python爬虫都有哪些类型
来源:互联网 作者:admin 时间:2020-04-02 09:27:13

  爬虫技术就是一个高效的下载系统,能够将海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。根据具体应用的不同,爬虫系统虽然在许多细节方面存在差异,但大体可以将爬虫系统分为如下3种类型:



  一、批量型爬虫:批量型爬虫有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程。至于具体目标可能各异,也许是设定抓取一定数量的网页即可,也许是设定抓取的时间等,各不一样;


  二、增量型爬虫:增量型爬虫与批量型爬虫不同,会保持持续不断地抓取,对于抓取到的网页,要定期更新。因为互联网网页处于不断变化中,新增网页、网页被删除或者网页内容更改都很常见,而增量型爬虫需要及时反映这种变化,所以处于持续不断的抓取过程中,不是在抓取新网页,就是在更新已有网页。通用的商业搜索引擎爬虫基本都属此类;


  三、垂直型爬虫:垂直型爬虫关注特定主题内容或者属于特定行业的网页,比如对于养生网站来说,只需要从互联网页面里找到与养生相关的页面内容即可,其他行业的内容不在考虑范围。垂直型爬虫一个最大的特点和难点就是:如何识别网页内容是否属于指定行业或主题。


  从节省系统资源的角度来讲,不可能把所有互联网页面下载之后在进行筛选,这样会造成资源过度浪费,往往需要爬虫在抓取阶段就能够动态识别某个网址是否与主题相关,并尽量不去抓取无关页面,以达到节省资源的目的。垂直搜索网站或者垂直行业网站往往需要此种类型的爬虫。


相关文章内容简介
推荐阅读
  • 11 2019-02
    如何利用python爬虫来抓取代理IP

    python网络爬虫的学习以及实现相对简单些,许多人都自学python,使用python来编写爬虫获取数据,但单靠理论是无法进步的,实战才能走远,今天小编普及以下如何利用python爬虫来抓取代理IP。

  • 19 2020-05
    python爬虫采集需要代理ip

    互联网时代飞速到来,随着用户量和使用量的增多,互联网现在可以说是一个庞大的数据库资源,而且是杂乱无章无结构的大数据库,如何将这些数据采集并有组织的呈现出来将会是一个很大的

  • 18 2019-06
    http代理可以提升公众号数据

    http代理可以提升公众号数据,是自媒体人员的辅助工具,具体效果怎么样呢?

  • 28 2019-02
    HTTP代理IP哪个比较好用

    在现在这个社会,网络迅速发展,代理IP迅速崛起,不管国内还是国外,用户们都可以随时随地得使用代理IP。

  • 12 2020-11
    http代理的伪装

    代理实际上指的就是代理服务器,英文叫作proxy server,它的功能是代理网络用户去取得网络信息。形象地说,它是网络信息的中转站。在我们正常请求一个网站时,是发送了请求给Web服务器,Web

  • 13 2019-05
    代理IP选择看业务需求

    代理IP选择看业务需求,为项目找到最合适的便好,也不需要找最好的,很多时候最好的也代表了最贵的,而你的项目或许并不需要这么高质量的,或者成本并不支持等等,因此我们最好是代理I

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部