您的位置:首页 > 新闻资讯 >文章内容
python爬虫都有哪些类型
来源:互联网 作者:admin 时间:2020-04-02 09:27:13

  爬虫技术就是一个高效的下载系统,能够将海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。根据具体应用的不同,爬虫系统虽然在许多细节方面存在差异,但大体可以将爬虫系统分为如下3种类型:



  一、批量型爬虫:批量型爬虫有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程。至于具体目标可能各异,也许是设定抓取一定数量的网页即可,也许是设定抓取的时间等,各不一样;


  二、增量型爬虫:增量型爬虫与批量型爬虫不同,会保持持续不断地抓取,对于抓取到的网页,要定期更新。因为互联网网页处于不断变化中,新增网页、网页被删除或者网页内容更改都很常见,而增量型爬虫需要及时反映这种变化,所以处于持续不断的抓取过程中,不是在抓取新网页,就是在更新已有网页。通用的商业搜索引擎爬虫基本都属此类;


  三、垂直型爬虫:垂直型爬虫关注特定主题内容或者属于特定行业的网页,比如对于养生网站来说,只需要从互联网页面里找到与养生相关的页面内容即可,其他行业的内容不在考虑范围。垂直型爬虫一个最大的特点和难点就是:如何识别网页内容是否属于指定行业或主题。


  从节省系统资源的角度来讲,不可能把所有互联网页面下载之后在进行筛选,这样会造成资源过度浪费,往往需要爬虫在抓取阶段就能够动态识别某个网址是否与主题相关,并尽量不去抓取无关页面,以达到节省资源的目的。垂直搜索网站或者垂直行业网站往往需要此种类型的爬虫。


相关文章内容简介
推荐阅读
  • 28 2020-10
    简单实用的换IP方法

    在日常生活和工作过程中经常会遇到需要换IP的情况,因为一个IP频繁的操作就会导致IP被封掉,比如说需要投票,薅羊毛,网络推广等等。更换IP的方式有很多,今天就来给大家介绍一下IP是什

  • 22 2020-09
    ip代理软件的作用比较多

    ip代理软件的作用比较多,主要是网络爬虫来使用,对于这个爬虫是如何解决ip代理软件的问题呢?如果使用的是免费ip代理软件,我们是怎么抓取的,又是如何检测的呢?要获得有效的免费ip代

  • 18 2021-01
    探究动态IP的几种使用方法

    不同商品的使用方法不一样的,如果是同类的商品,会有很多相似的地方。就拿IP代理来说吧,一般使用方法有三种,分别是没有限制,直接使用;或者是要求输入账号密码使用,还有一种都是

  • 06 2021-04
    IP交换功能适合什么项目呢

    现在网络无处不在,代理IP应用越来越广泛。很多平台都有约束。为了不被屏蔽,需要代理IP。那么代理IP的IP交换功能适合什么项目呢?

  • 20 2019-11
    代理服务器全方位介绍

    有关于代理服务器,你了解得有多少?代理服务器的工作是怎么进行的?代理服务器的功能又有哪些?今天,机灵代理来跟大家全面对它进行一个剖析。

  • 16 2019-10
    常用切换IP地址的方式对比

    IP地址切换可能对于普通上网用户来说,使用得比较少,但是现在为了保护个人数据,也有很多人开始注重互联网足迹的隐私。下面机灵代理给大家带来常见的换IP方式对比介绍。

在线咨询
大客户经理
大客户经理
1829380381
13316264505

大客户经理微信

微信公众号

微信公众号

回到顶部