

英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料
数据仓库设计的通用模型
摘要
由专家领导的设计与实现数据仓库任然保留着易损的任务。尽管如此,让用户通过简单而灵活的流程来定义和构建自己的系统是很有意思的。特别是,在生产系统的领域中,存在着将数据从各种来源集成,并对其进行分析的需要,以便提取知识用于优化这些系统。传统上一个数据仓库的设计,一方面基于足够的具有代表性的事实,另一方面基于分析的尺寸。在这篇文章中,我们展示了一个统一的表示,以及一个可以设想的问题,这些归结为一个层次的标准适用于分析的必要性。我们的主张用一个图形化的表示,给用户提供了一个视觉帮助。
R 2007 Elsevier公司保留所有权利。
关键词:多维;数据仓库;通用模型;关系映射
1.介绍
基本上,一个数据仓库的架构在于两种元素:事实和尺寸。事实是用于记忆有关情况或事件的措施。尺寸是用来分析这些措施,特别是通过聚集操作(计数,求和,平均值,y)。为解决这些问题,我们可以根据产品类型和一年的一个月内一家店铺的销售进行分析。每一个产品的销售是一个事实。一个可以描述它的数量。一个可以在几个事实的数量基础上计算一个聚合函数。例如,在过去的3年(2001–2003)的每个一月期间,第一个可以使产品类型为“矿泉水”的产品达到销售数量。产品类型是一个标准(也被称为成员)的产品的尺寸。一个月和一年的时间是标准的。一个数量就是这样是被产品的类型和一年中的一个月所联系起来的。这种关系涉及到关于维度的事实的组织。另一方面一个月与一年被联系起来。这种类型的连接关系的组织成员是在一个维度的。事实分析的可能性取决于这2种形式的连接,也取决于数据仓库的架构。
许多研究都已经被致力于模型的尺寸的研究。目的是要找出对应的分析操作和一个对集合的创造提供严格控制的组织。特别是对于它避免非相加数据的重复计算或求和是很重要的。许多作者建议组织一个给定的维度的成员的聚集路径可以明确定义的层次结构。1999年,对Pourabbas和Rafanelli而言,层次结构是通过一个容纳功能的装置来定义。1998年,在Lehner等人而言,层次结构是从它的成员之间存在的函数依赖,和多维范式的维度结果组织中定义的。2003年,Lechtenborger和沃森的工作扩展了考虑尺寸专业化这个框架。它表明,有一个自然的对应关系,在选择的维度级别和属性发生在子类。正常的形式提出了允许构建类层次结构的维度级别保证汇总。1997年,对Gyssens和Lakshmanan而言,功能性也被用来设计尺寸与事实维度。2001年,对阿贝洛等人,在层次结构中的水平之间的关系是通过部分整体语义理解的。2001年,对Tsois等人,尺寸是围绕着一个维度的概念,这是一套挖掘关系的概念。该模型是集中在一个父-子(一对多)关系类型。一个挖掘关系描述了一个孩子的水平如何可以组合成对应的父级的成员。2000年,对Vassiliadis和Skiadopoulos而言,一维被视为一个格子和两个函数升序(祖先)和降序(后代)用于执行传递和向下挖掘操作。1999年,彼得森和詹森的工作提出了一种也是基于晶格结构的扩展多维数据模型,并提供非严格层级(即,许多在一个维度中的不同的级别之间许多关系)。2001年,涅米和Nummenmaa的工作介绍了不同层次的数据(平衡和非平衡的,破坏的,非破坏的),并研究其对汇总的路径及其对OLAP(联机分析处理)多维数据集的表现力发生的影响。2006年,对曼斯曼和绍尔而言,溶液处理异质层次ARCHIES和混合粒度层次的建议。异质性的结果来自同一类的不同子类的存在,每个子类有它自己的属性和聚集水平。混合粒度时,子类的一个维度的两端的情况下,作为聚集水平。1997年,对伦茨和Shoshani而言,建立总结性是多维结构的必要条件。
模型的事实和他们之间的关系并没有受到如此多的关注。事实通常被认为是一种简单的方式,它包括与维度的根相关的事实。然而,有一个需要考虑的更复杂的结构,在相同的一组尺寸连接到不同的事实类型,其中几个事实类型是相互连接的。1999年,佩德森和延森所描述的模型允许在这个方向上的一些可能性。2002年,YAM模型(Abello等人)允许的语义关系不同–O O星结构之间的用法。
除了这些研究是要注意各种命题的重要(1997年,Agrawal等人;1999年,Datta和托马斯;1997年,Gyssens和Lakshmanan;1996年,Li和Wang,立方模型的主要目的是对多维分析的代数定义。代数的表现力是这些作品的主要主题。
问题的出现是为了比较这些不同的模型和代数的可能性。有几个作者曾经在这个方向工作过。1998年,Blaschka等人的工作定义了要求为OLAP和多维模型的比较。没有模型符合所有的要求。这使得不同型号的组合是可取的。1998年,对Abello等人的工作提出了一个框架,分类和比较的多维模型。十六个不同层次的模型(概念、逻辑、物理)的研究。这些表明,概念模型提供的可能性更大的语义,但它们不包括用于处理数据的代数。
2002年,对哈恩等人而言,其他作品也必须提及,提出一种环境,该环境能够从概念模式中生成一个星或雪花数据仓库的实现。在生成过程中,要考虑OLAP目标系统的局限性(Cognos Powerplay组件或Informix metacube组件)。1998年,golfarelli等人提出了一种解决方案,以从电子/模式的模式中获得多维结构。2000年,穆迪和kortink通过研究提出了一种从E/R模式开发的三维模型的方法。由此产生的不同的选项的模式是可以选择的(平面,星,雪片状,星座)。2001年,对theodoratos等人的工作解决整合datafrom异构数据库并将其存储到数据仓库的存放问题。在这项工作中,数据仓库被看作是一组实体化视图。所以问题变成了视图选择的一个问题。1999年列文与Loizou和2003年列文与Loizou分别提出了不同的算法,并且将它们进行对比,他们建议使用星星和雪花的关系模型范式。2001年, Thalhammer等人通过工作研究扩展了传统的数据仓库架构与分析规则,它模拟决策过程的分析师的工作。分析规则扩展与机制的事件条件(ECA)规则的概念是通过多维分析数据并作出决策的。2006年,Huang等人提出了强度的定量数据的传统的多种-视角分析,并将其延伸到定性数据(像知识一样)的多维度代数。机制提出,要有效地探索在垂直方向上的数据(父亲和儿子),或在水平方向(兄弟)。
我们在本文中的目标是提出一种可用于捕捉事实和维成员的建模,从而形成统一方式的模型(称为对象多维模型(OMM))。它允许以各种方式共享尺寸,并描述事实类型之间的不同关系。使用这个模型,我们也将定义结构良好的数据仓库结构的概念。这种结构对性能的实现有优势。我们建议使用这样的结构,它可以帮助用户在设计和查询一个数据仓库时用曲线图表示。
本文结构如下:第2部分和第3部分,分别呈现事实的造型和尺寸的造型;第4部分我们统一事实和会员模型;第5部分显示我们要建模的典型结构和定义,形成阱结构的概念;第6部分显示了用我们的模型来描述现实情况的能力;第7部分讨论关系映射;第8部分说明合式结构的关系形式的SQL查询;第9部分讨论我们的模型的一些改进,并得出结论。
2.建模的事实
事实是用来记录有关事件或状况的措施或状态的。通过不同的标准组织的措施和国家可以分析。
事实类型有以下结构:
fact_name[(F)(fact_key),(list_of_reference_at-tributes),(list_of_fact_attributes)]
其中,fact_name是这个类型的名称;F是一个事实类型标记;fact_key列表是属性名;这些属性的值的串联确定类型的每个实例;list_of_reference_attributes列表是属性名;每个属性有一个值,或者是一个原子值(退化的情况下),或在尺寸上对成员引用实例或引用另一个实例;list_of_fact_attributes列表是属性名;是每个属性的事实类型的措施(如属性也会被称为计量属性)。
引用维度的设置包括直接引用通过list_of_reference_attributes维度,而且维度是间接引用其他的事实。
每一个事实的属性可以沿着每一个引用的维度被分析,这是通过计算该属性的值的聚合函数的分析。
可能没有事实属性,在这种情况下,事实会记录事件或情况的发生。在这种情况下,分析包括计算出现过的满足一定数量的条件。
根据一个应用程序的需要,我们可以引入不同的事实类型,在他们之间共享维度也具有一定参考意义。
如果一个成员的第一个成员和一个成员之间没有任何关系,那么第二个维度就是独立的。
如果将其引用属性替换为值属性,则该维度将退化为一个事实类型。换句话说,分析是通过直接使用此属性的值来实现的。
定义1(事实上形成的事实类型):如果每个引用维度都是退化的或指向一个维度中的法律条目(一个法律条目,因为它被定义的进一步,是任何成员的一个维度)的一个事实类型,那么将是很好的。
例1,作为一个例子,让我们考虑以下事实类型,即在一组商店中记忆销售情况。
Sales[(F),(ticket_number,product_key),(time_key,product_key,store_key),(price_per_unit, quantity)]
关键是(ticket_number,product_key)。这意味着一张票的每一个不同的产品销售的实例。有三个参考尺寸:time_key,product_key,store_key。有两个事实属性:price_per_unit,和quantity。通过使用三个维度的聚合操作,可以分析的事实属性。由于三个引用点中的每一个都指向一个维度,这个事实类型是很好的。
例2,考虑到现在同一事实型但另参考尺寸产品(的成员类别的关键category_key)。
Sales[(F),(ticket_number,product_key),(time_key,category_key,store_key),(price_per_unit,quantity)]
三个引用点中的每一个都指向一个维度中的成员的键。所以,这个事实类型是很好的。
例3,再考虑事实类型的销售——另一个参考的尺寸产品(重量的产品)。
Sales[(F),(ticket_number,product_key),(time_key,product_weight,store_key),(price_per_unit,quantity)]
因为product_weight是不是在一个维度的法律条目,这个事实是不正确的。在3.6节中,我们将看到这样的属性是一个它不能用于组织多维分析的优势属性。
在一些模型中,从每个人看,被强加的测量属性是独立的。这将使他们的分析变得清晰。独立性可以通过使用功能依赖来表示:它不存在于度量属性之间的任何功能依赖关系。一般情况下,我们不强加一个这样的先进行验证的约束。
3.模型尺寸
3.1维度成员
通过会员介绍,这是需要沿一个维度进行分析的不同标准。成员是一个特定属性(或一组属性,我们将在3.6节看到的),它承担着一个良好定义的域的价值观。例如,维度时间可包括成员,如日,月,年,Y。在本文中,我们将简单地介绍沿成员的事实属性A M,这些意味着我们有兴趣在A的值计算聚合函数由M的值定义,我们也将用符号自我介绍为第i个第j个成员的任何分组尺寸。
3.2成员的分层组织
在一般组织的层次结构中,一个维度的成员是用其发生的层次结构的概念表示的。维度层次是一个可用于强加成员值的约束和引导分析的一个非常有用的概念。一个子集的构件的分类,整分论,这些出现的层次结构都是由能在真实世界中存在的各种关系导致的结果。图1展示出其中可发生典型情况。
图1 维度中的不同类型和数据层次结构
案例(a)和(b)表示相同的成员,但组织形式不同。在情况(a)中,在time_key和月份之间以及年份和月份之间,都代表了掌权者的关系。 例如,Time_key是其编码,日、月和年指的是日期。对于该月值,如2月2日的识别是从总段的所有月份每个月算起的。在这些条件下,销售的所有年所有月份的量,与只在每月的分量进行分组排序获得。在情况(b)中,月份和年份都是分层依赖time_key的,但他们又是相互独立的(月,例如,是如一月一个值从一年的值独立地识别月份)。根据这样的结构,我们可以通过其使用的,只有一个月的月和年的两值的值,或者一年的值,或者是分组的值。前面的查询表达将涉及上月和一年的分组排序查询。情况(c)表示的层次结构,是其中两个路径的选择。它们共享相同的根类型(time_key)和相同的叶型(年)。从time_key开始,分组是通过使用一周或一个月的(但不是两者)的值,或者使这些值成为可能。这种结构具有精确的语义:用于time_key的是一个给定的发生,对于是否使用一周路径或每月路径,人们总是获得同期发生。这意味着,在使用第一路径或第二路径,我们将继续得到与一年元件的聚合时相同的结果。在这种情况下,我们说,替代路径满足路径的一致性约束。我们用虚线箭头来表示可选路径。我们将根据该链接的子部件MIJ(即周)到父构件Mik的(即年)的层次关系(人力资源)。在与这些可能性不同的情况下进行建模,我们将使用符号MIJ-Mik。因此以下我们只考虑在儿童发生被链接到一个类型的唯一父发生的情况。然而,子类型也可能发生,如在情况(b)或(c)中,可以有几个父出现但每个不同的类型。这种人力资源的存在是非常重要的,因为这意味着一个维度的成员可以组织成水平,其实正确的聚集属性沿水平值可以得到保证。
3.3维度的封面图
对于下面,我们假设人力资源是
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[150837],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
