数字化转型名词:数据仓库、数据湖、数据孤岛

发布时间:

2022-09-22

分享到:


数据仓库

    数据仓库是为企业所有级别的决策制定过程提供各类数据支持的战略集合,被认为是商业智能的核心组件。数据进入数据仓库前需要抽取、清洗、筛选、归类,以保证数据质量,也易于后期查找、分析。
    数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
    数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
    数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

 

数据湖

 
     数据湖作为一个集中的存储库,可以在其中存储任意规模的结构化和非结构化数据。在数据湖中,可以存储不需要对其进行结构化的数据,这样就可以运行不同类型的分析。
简单表述总结为以下8点:
    1) 数据湖需要提供足够用的数据存储能力,存储保存了一个企业/组织中的所有数据。  
    2) 数据湖可以存储海量的任意类型的数据,包括结构化、半结构化和非结构化数据。  
    3)数据湖中的数据是原始数据,是业务数据的完整副本。  
    4) 需要具备完善的数据管理能力(完善的元数据),可以管理各类数据相关的要素,包括数据源、数据格式、连接信息、数据schema、权限管理等。  
    5) 需要具备多样化的分析能力,包括但不限于批处理、流式计算、交互式分析以及机器学习;同时,还需要提供一定的任务调度和管理能力。  
    6) 需要具备完善的数据生命周期管理能力。不仅需要存储原始数据,还要能够保存各类分析处理的中间结果,并完整的记录数据的分析处理过程,帮助用户完整详细追溯任意一条数据的产生过程。  
    7)需要具备完善的数据获取和数据发布能力。  
    8) 对于大数据的支持,包括超大规模存储以及可扩展的大规模数据处理能力。
三大理念:     
    1)能够存储海量的原始数据     
    2)能够支持任意的数据格式     
    3)有较好的分析和处理能力
六大基本特征:  
  1)“保真性”  
  2)“灵活性”  
  3)“可管理”  
  4)“可追溯”  
  5)丰富的计算引擎  
  6)多模态的存储引擎
 

数据孤岛

 
     “企业发展到一定阶段,出现多个事业部,每个事业部都有各自数据,事业部之间的数据往往都各自存储,各自定义。每个事业部数据就像一个个孤母一样无法(或者极其困难)和企业内部的其他数据进行连接互动。”这样的情况称为数据孤岛。简单说就是数据间缺乏关联性,数据库彼此无法兼容。
    在企业信息化中,专业人士把数据孤岛分为物理性和逻辑性两种。
    物理性的数据孤岛指的是,数据在不同部门相互独立存储,独立维护,彼此间相互孤立,形成了物理上的孤鸟。
    逻辑性的数据孤岛指的是,不同部门站在自己的角度对数据进行理解和定义,使得一些相同的数据被赋予了不同的含义,无形冲加大了跨部门数据合作的沟通成本。
数据孤岛形成原因:
    1、以功能为标准的部门划分导致数据孤岛∶
    企业各部门之间相对独立,数据各自保管存储,对数据的认知角度也截然不同,最终导致数据之间难以互通,形成孤岛。也因此集团化的企业更容易产生数据孤鸟的现象每个部门都会有业务数据的产生,有对数据保存和使用的需要,不同部门对数据的定义和使用可能存在比较大的差异,所以各部门之间的数据不能互通。
  2、信息部门建设的相对滞后,如果信息部门不能尽快满足业务对数据处理的要求,那业务部门就可能独自开发业务系统,这种情况现在还是普遍存在,
  3、缺少企业内信息化建设的战略和标准,如果不能做到信息系统建设的统一,由不同部门,不同公司来建设的话,必须有一个标准能够使得日后的互通比较容易实现
  4、不同类型、不同版本的信息化管理系统导致数据孤岛;