AIOps 一场颠覆传统运维的盛筵
865
2022-11-16
大数据的数据模型
越来越多的业务,越来越多的信息化系统,让很多公司拥有了海量数据,但是分散的数据、隔离的系统,又形成了一个个数据孤岛。于是,为了利用好数据,各大公司纷纷建设了数据仓库,或者是最近升级为大数据平台之类的,但是,不同条线不同场景的数据又要如何整合到同一个仓库呢?
数据模型究竟是干什么的,该怎么构建呢?笔者接下来为大家做一些入门的概念普及。
为什么需要数据模型?
数据模型能够促进业务与技术进行有效沟通,形成对主要业务定义和术语的统一认识,具有跨部门、中性的特征,可以表达和涵盖所有的业务。
无论是操作型数据库,还是数据仓库都需要数据模型组织数据构成,指导数据表设计。或许Linux的创始人Torvalds说的一句话——“烂程序员关心的是代码,好程序员关心的是数据结构和他们之间的关系”最能够说明数据模型的重要性。只有数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。
常见数据建模方法介绍
1. ER模型:
ER模型是数据仓库之父Inmon推崇的、从全企业的高度设计一个3NF模型的方法,用实体加关系描述的数据模型描述企业业务架构,在范式理论上符合3NF,站在企业角度面向主题的抽象,而不是针对某个具体业务流程的实体对象关系抽象。它更多是面向数据的整合和一致性治理,正如Inmon所希望达到的“single version of the truth”。
ER模型最基本的要素是实体、属性和关系:
实体:具有相同属性的实体具有相同的特征和性质,用实体名及其属性名集合来抽象和刻画同类实体;
关系:数据对象彼此之间的关系;
属性:实体具有的某个特性,一般多个属性来刻画某个实体。
2. 维度模型:
维度模型是数据仓库领域另一位大师Ralph Kimball 所倡导的。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能,更直接面向业务。典型的代表是我们比较熟知的星形模型,以及在一些特殊场景下适用的雪花模型。
维度模型最基本的两个要素是事实表和维度表:
事实表:一般由两部分组成,维度和度量,通俗的理解为“某人在某个时间什么条件下做了什么事情”的事实记录,它拥有最大的数据量,是业务流程的核心体现。
维度表:对事实表的补充说明,描述和还原事实发生时的场景,比如通过用户、商品、地址、时间等维度还原商品订单发生时的场景。
发表评论
暂时没有评论,来抢沙发吧~