编辑导读:在上一篇文章中,作者描述了过去的DBMS、现在的DBMS以及众所周知的OLAP。本文是关于——DW数据仓库(包括OLAP操作)的数据仓库。让我们一起来看看吧。
在上一篇文章中,我们重点介绍了几个仓库的过去:DBMS数据库管理系统(OLTP)。可以戳《秒懂数仓的前世今生:DBMS、DW、OLTP、OLAP到底是啥?(上篇)》。
今天,我们将重点关注以下文章:DW数据仓库(包括OLAP运营)
1.什么是DW?定义由于数据量的不断扩大,人们对数据的需求精细化(从月到天,从天到小时,从小时到分钟),OLTP已经不能满足只对关系数据库进行联机事务处理的要求。这时,Dataware数据仓库的架构应运而生,DW环境下的处理类型可以概括为加载和访问进程。一旦数据被加载,它通常是不可能更新的,然后它将被用于访问查询和各种类型的分析。
这个时候,我们往往会使用一种OLAP技术来优化数据结构,让企业可以灵活地查询和访问数据。
OLAP,即多维数据库管理系统处理,提供了一种信息系统结构,使企业能够灵活地访问数据,以各种方式对数据进行切片和分块,能够灵活、动态地考察汇总数据和明细数据之间的关系和变化。
二、为什么需要DW:含义DW主要有以下含义和特点。
降低存储成本:减少不必要的数据冗余,从而大大降低存储和计算成本,更好更有效地利用数据。提高使用效率:当业务发生变化时,可以更方便地进行扩展,提高数据的稳定性和连续性,保证数据的质量:好的数据模型可以改善数据统计口径的不一致性,降低数据计算错误的可能性。三、如何使用DW:具体建模分为三层六类。
第一层:ODS运营数据存储层,第二层:DW数据仓库层,可分为公共维度汇总层DIM,数据仓库层DW(数据明细层DWD,数据中间层DWM,数据服务层DWS)第三层:ADS应用数据服务层。详见文章《》。
四、关于OLAP4.1什么是OLAP:与R & amp你可能经常听到OLAP这个词。什么是OLAP?OLAP等同于DW吗?
其实并不是这样的。我们先来区分一下OLAP的DW数据仓库:
DW数据仓库是数据库的一种,它的设计使得数据分析更加容易(通常使用来自多个来源的数据)。它通常由事实表和维度表组成,通常由聚合表组成。OLAP是一组可以操作数据集的操作,如旋转、切片、切割和钻孔。例如,您可以使用Excel数据透视表来执行OLAP运算。所以本质上,两者并不等同。就包含关系而言,数据仓库包括OLAP,OLAP也是数据仓库的重要组成部分。如果更直接的表达这两部分的区别,DW数据仓库是日常管理和存储数据的场所,OLAP是分析数据的方法。
4.2 What有什么用:特性这个时候一定有人要问。我也可以使用DBMS的关系数据库进行分析。为什么我要用OLAP进行分析?
当然,——关系数据库报表工具可以对表中存储的多维数据进行查询、报表和分析,但是随着数据量的增加,性能会变慢。并且需要做大量的工作来重新组织结果以关注不同的维度。比如以前只需要业务A的整体数据,现在就要看这个业务下的人1和人2的数据,或者业务A和业务B下的人1和人2的数据,然后一起跨越时间维度。
多维分析,这是OLAP立方体的地方和最大的特点。OLAP多维数据集用附加层扩展了单个表,每一层都增加了一个额外的维度——,它通常是维度& quot概念层次& quot。例如,立方体的顶层可以按区域销售;附加层可以是一个国家、一个省、一个城市或者甚至是一个特定的商店。
理论上,一个立方体可以包含无数层。(代表三个以上维度的OLAP立方体有时被称为超立方体。该层中可以有更小的立方体。例如,每个商店级别都可以包含一个按销售人员和产品划分的销售额多维数据集。在实践中,数据分析师将创建仅包含实现最佳分析和性能所需图层的OLAP立方体。
4.3如何使用OLAP:支持的操作OLAP立方体支持四种基本类型的多维数据分析:
下钻操作
向下钻取操作通过两种方式将粗略数据转换为更详细的数据:在概念层次结构中向下移动或向多维数据集添加新的维度。例如,如果要查看季度销售业绩,可以向下钻取以月为单位的月销售额,并在& quot时间& quot维度。
上卷操作
与向下钻取相反,上滚通过在概念层次结构中上移或减少维度来聚集OLAP立方体上的数据。例如,通过查看每个地区而不是每个城市的数据,可以在Location维度的概念层次结构中向上移动。
p>切片操作切片是通过从主OLAP多维数据集中选择一个维度来创建子多维数据集。例如,你可以通过切片来突出表示某业务线第二季度的销售情况
切快操作
切块操作通过在主OLAP多维数据集中选择一个小的多维数据集。例如,我只需要分析华南区域男装和妈妈装业务线下半年的销售情况。
旋转操作
旋转当前的多维数据集视图。其实OLAP的这个操作与Excel中的数据透视表功能相当,OLAP数据透视表相对更易于使用(仅需较少的专业知识),并且具有更快的响应时间和查询性能。
按数据存储方式(建模类型)分类,可分为MOLAP、ROLAP、HOLAP等。
MOLAP:Multidimensional(多维的)OLAP
将数据存储在优化的多维数组中,而不是关系数据库中。
优点:性能绝佳,MOLAPcubes为了快速数据检索而构建,具有最佳的分块和分片操作。可以执行复杂的计算,速度快。
缺点:可以处理的数据量有限,因为所有的计算都是执行在构建的多维数据集上,多维数据集本身不可能包括大量的数据。需要额外的成本,多维数据集技术往往是有专利或现在并不存在在某个组织中。因此,要想采用MOLAP技术,通常是要付出额外的人力和资源成本。
ROLAP:Relational(关系型)OLAP
将分析用的多维数据存储在关系数据库中。这种方式依赖SQL语言实现传统OLAP的切片和切块功能,本质上,切片和切块等动作都等同于在SQL语句中添加“WHERE”子句。
优点:可以处理大数据量,ROLAP技术的数据量大小就是底层关系数据库存储的大小,ROLAP本身没有对数据量的限制。
且可以利用关系型数据库所固有的功能,关系型数据库已经具备非常多的功能。
劣势:性能可能会很慢,因为每个ROLAP包裹实际上是一个SQL查询(或多个SQL查询)关系数据库,可能会因为底层数据量很大,使得查询的时间很长。
HOLAP:Hybrid(混合型)OLAP
将上述两种方式结合,从而可以获取各自的优点。
本文由@数据产品高远原创发布于人人都是产品经理,未经许可,禁止转载
题图来自Unsplash,基于CC0协议