基于XML的数据集成模型和多数据库系统的模式映射外文翻译资料

 2022-11-28 15:56:40

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


基于XML的数据集成模型和多数据库系统的模式映射

李瑞轩,路正定,肖卫军,武卫

中国武汉华中科技大学计算机科学与技术学院

2003年10月20日

摘要:多元数据库系统被设计用来实现分布式异构数据库系统内的模式集成和数据之间的交互。但数据模型的异质性和模式的异质性使之成为具有挑战性的任务。多元数据库通用的数据模型有许多,首先介绍了基于XML,命名为基于XML的集成数据模型(XIDM),适用于不同类型综合评级模式。然后基于多元数据库系统中图式映射的基本算法,包括全局映射,处理水平和垂直的球形模式和输出模式之间的分割,以及局部映射,加工转化之间的出口模式和本地模式。最后,对插图和图式映射实现多元数据库原型-全景系统进行了讨论。实施结果表明,基本是管理多个异构数据源和基于基本模式映射的方法表现得很好,有效的整合关系模型,面向对象的数据库系统和其他文件系统。

关键词:多数据库系统,模式映射,可扩展标记语言(XML)。

  1. 引言

多数据库系统(MDBS)是一个软件层,集成预先存在的,异构的,称为本地数据库系统(LDBSs)分布式数据库系统的集合。一个MDBS允许全球应用到位于不同类型的接入分布式对象本地数据库系统,例如关系数据库,面向对象的数据库,多媒体数据库和甚至文件系统,采用了统一的数据定义和操作语言. 然而,可能存在各种不同的本地数据库模式的差异和冲突。为了访问数据在这些多个数据库系统透明,应需要一种方法可以减少这些差别和解决这些冲突。

整合这些数据库架构的一般方法是通过是通过一组本地模式的传送格式离子,以反映本地数据库的背景下构建一个全球性的架构。因为任何数据库架构是基于现实世界的应用需求,在DBMS全局模式应遵守同样的情况。

也就是说,只有本地数据库中的信息有利于全球的应用需求将有所回升,转化。一个MDBS有4个架构级别:本地模式,输出模式,全局模式和外部模式。全球架构是MDBSs一个虚拟的知识基础。多数据库用户只能查询全局模式,其数据来自LDBSs。从全球的模式来本地模式,是为了以便模式映射应该发展。

为了表示和处理多数据库输出模式,需要有一个公共的数据模型。在旧的MDBSs方式中,关系数据模型,面向对象模型和对象关系模型中扮演了最重要的作用。网络的日益普及,就更加需要进行搜索,显示,操作和不同的数据源,包括数据库系统和文件系统之间的信息交流。一种试图通过数据来实现这一规范代表产生了XML的出现(可扩展标记语言)的技术。作为一个数据描述语言,XML可以描述不仅结构化数据,而且半结构化数据。因此,基于XML的通用数据模型是MDBSs一个更好的选择。在我们的方法中,在DBMS不同的数据模型集成方面除了提供基于XML的通用数据模型(名为XIDM,基于XML的集成数据模型),我们还提出了一个方法论XIDM模型和其他数据模型之间的模式映射,比如关系数据模型,面向对象的数据模型和甚至文件系统。然后,我们给出的实施例子来说明在多数据库原型类型的数据模型和模式映射 - 全景系统。

2.XML为基础的一体化数据模型

2.1通用数据模型

在大多数现有的MDBSs中,4级架构体系结构被引入。这四个架构级别如下。

  1. 当地架构级:本地模式用本地数据库的本地数据模型表示。因此,不同的本地数据库的本地模式可以在不同的数据模型,如关系模型,面向对象的模型,等等。同样,XML文档,其命名的DTD(文档类型声明)架构或XML模式来表达,使用的是文件基于数据模型。
  2. 出口模式级: 对于每一个本地数据库,数据库管理系统应提供工具以它的本地模式到由公共数据模型,这就是所谓的输出模式。这个翻译表达这些架构的相关部分自动翻译创建本地模式的概念和那些出口模式之间的映射关系。
  3. 全局模式级:一个全局架构,通过整合多种输出模式构建基于全局数据模型,提出了的MDBSs全局的观点和关于全局数据的分布的映射信息。
  4. 外部模式级:对于定制或访问控制的原因,是为用户或应用程序的特殊群体创造外部模式。

DBMS和传统的分布式数据库系统之间的主要差别是如何定义的全局模式。传统的分布式数据库系统的全局架构,从全局逻辑推导的整合,给一个全局概念图。但是,多数据库全局架构,从松散集成的到来,只表达了集的各LDBS共享数据。换句话说,即的全局用户操纵一个MDBS包括在每个LDBS和其他私人数据的共享数据为本地应用程序。那是被提供的数据,传统的分布式数据库系统的全局模式是联合集合的所有本地模式的每个LDBS,和一个MDBS的全局模式的本联合集合的子集。因此,需要一种特殊的通用数据模型的DBMS定义全局概念模式。在一般情况下,公共数据模型被定向到导出模式,而全局数据模型面向全局模式。例如,面向对象的模型被用于公共数据模型,以及关系数据模型用于全局数据模型。为简单起见原因,这里,在以下论文,相同的数据模型被引入到全局和公共数据模型。

此外,由于异质性存在DBSS的数据模型之间ING,异构MDBS应该提供在不同模型概念之间的映射。通常创建的公共数据模型,以便本地数据模型和公共数据模型之间的转换和映射可以这样做。因此,常见的数据模型是MDB。目前整合异构数据,同时选择一个通用数据模型的基础上,两个原则应该以如下方式遵守:

(1)普通的数据模型应当尽可能简单,使得它很容易其模式转换为本地数据模型或副对比的模式。

(2)通用数据语言顺应了通用数据模型应便于DBMS中数据的表示和处理。

2.2 XIDM:基于XML的集成数据模型

大多数现有的MDBSs使用面向对象的模型作为共同数据模型。然而,随着各种要求的应用越来越的出现,有必要对传统的面向对象的模型进行扩展集成多个不同的数据源。XML,一种大大延长了HTML的元标记语言,现在已经迅速崛起为代表的各种数据,特别是基于网络信息系统的主导标准。作为一个自我描述的语言,XML可以描述各种数据结构,如线性列表,树和图形。

所以XML正在成为数据接口的各种应用系统之间的通用规范。一种数据模型,称为基于XML的综合数据模型(XIDM),其是基于XML的,并作为集成和互操作于多数据库原型全景系统异构数据源的通用数据模型,提出如下:

定义1在XDM模型中,一个元素集群(EC)是使用文档类型定义(DTD)或XML 架构中的具有同样描述的所有元素的聚集。

元素群,其型号类型的元素,是类似于在面向对象的方法的类的概念,而混凝土元件是类似的一类。例如的一个实例(i .e .object),以下几排举一个元素集群员工的定义。

lt;xsd :schema xmlns :xsd =“ http :// www .w 3 .org/2001/ XMLSchema” gt;

lt;xsd :element name =“ Employee ” type =“ EmployeeType” gt;

lt;xsd :complexType name =“EmployeeType ” gt;

lt;xsd :sequence gt;

lt;xsd :element name =“ Name” type =“ xsd :string”/ gt;

lt;xsd :element name =“ Salary ” type =“ xsd :float ”/ gt;

lt;/ xsd :sequence gt;

lt;xsd :at tribute name =“ No” type =“ xsd :string”/ gt;

lt;xsd :att ribute name =“ Dept ” type =“ xsd :string”/ gt;

lt;xsd :complexType gt;

这里,我们介绍的元素集群的概念,因为在DBMS全球架构只包括元素定义,而不是真正的元素含量。有两种类型的MDBS元素集群,全局元素簇(GEC)和出口元素集群(EEC),其对应于全局模式和出口模式分别XIDM模型。下面的描述将基于元素群集的概念。

定义2在XDM模型中,文档被模拟为一个标记,并下令图,命名为XDM图,这是一对G =lt;顶点,边gt;,其中顶点是一组节点和边缘是一组边。

注意,我们取一个同样的XIDM模型,就像在大多数情况下的一个XIDM曲线图。

定义3在图G,它代表一个元素群集,每个节点是基团EC =lt;K,A,S,Q,Mgt;,其中K是键属性的列表,对应于任一ID属性或身份约束定义元素,A是属性名的有序列表,S是子元素簇的有序列表,Q是集迫使元素集群EC的资格,而M是元素集群EC集架构映射。

这里,子元素群集具有与元件群集的相同的定义。也就是说,存在该元件簇及其子元素簇之间的嵌套关系。该模式映射将在稍后讨论。

定义4图G中每条边是一组B =lt;EC1,EC2,标签gt;,其中EC1是起始元素簇,EC2是结束元素集群和标签是在边缘的象征。

在XIDM模型中,边被指导和标记。边缘被划分为两种类型:标签边和参考边。一个标签边缘,由子元素集群的标签标示,表示元素集群及其子元素集群之间的嵌套关系,指出从其父的孩子。参考边缘,一般由元件群集的参考属性标记,表示不同的元素簇之间的参考关系,指向引用的元素群集从它那引用元素群集。边缘的方向使XIDM有序模型,其可以具有许多优点,如更复杂的语义表达和更有效的查询。

3.架构映射多数据库系统

3.1基本概念

正如我们上面所讨论的,也有DBMS4架构层面:外部架构层面,全局架构级别,输出模式层面及本地层面的架构。由于外部模式,是超出MDBS全局数据库层,是最为特殊的,不同的用户群和应用程序,本文关注剩下的三个架构层次。

如在图.1描述的,有在MDBSs三个数据库层:全局数据库层,出口数据库层和本地数据库层。全局数据库,对于多数据库全局用户发布的,是一个虚拟数据库,包含全局模式和无实际数据。出口数据库,基于公共数据模型,也是一个虚拟数据库,包含出口模式。有对应于LDBSs的不同地方的模式不同的前端口模式。本地数据库,在广义上,是数据库系统,文件系统或HTML/ XML文档,其中包含实际数据。不同的本地数据库具有不同的本地模式和表示。全局数据库和导出数据库对象是虚拟的,而当地的数据库有以假乱真的作用。

图1、在多数据库系统下的模式映射架构

多数据库全球用户只能查看全局模式全局对象。由于这些全局对象是空的,全局的查询数据只能从本地数据库来的,来自全局架构模式映射到输出模式,并从输出模式到本地模式应该发展。但我们怎样才能得到这些模式映射?我们知道,多数据库管理员本地翻译成模式输出模式,然后将这些输出模式集成到全局模式。模式映射可以在翻译和集成过程中被抽出。图.1说明了一体化进程和模式映射架构。在MIDBS,有两种模式映射:全局映射和局部映射。全球映射,这是全球架构的一部分,涉及与出口导出数据库对象全局数据库全局对象,而在每一个输出模式局部映射关系其出口对象有相应的局部对象。

3.2全局映射

在全景系统,相同的数据模型,XIDM,被用来描述全局模式和输出模式。因此,全局模式和输出模式之间的全球映射并不需要处理不同的数据模型。在反向模式之间的转换,也就是说,当基于XIDM出口模式都集成到基于XIDM全局模式,我们只需要合并这些输出模式不需要任何变化。有两种类型的全局映射的:水平映射和垂直映射。一些全局的映射可能同时包含这两个映射。我们可以将它们分为两种情况:先水平映射垂直映射或其他。在这里,我们给这两个映射的定义。

定义5全局元素群集GEC=lt;K,A,S,Q,Mgt;是一个操作,其中变换GEC成一组出口元件簇,EEC1(K1 , A1 , S 1 , Q1 , M1), hellip;, EECn(Kn , An , Sn , Qn , Mn),根据一组给定条件P1 , hellip;, Pn,其中(1)K 1 =K2 =hellip; =Kn = K ;(2)A1 =A2 =hellip;=An =A ;(3)S 1 =S2 =hellip; = Sn =S ;(4)Qi =(Q and; Pi);(5)Mi =LMi 。

这里,K,K1,...,Kn的是GEC的关键属性分别为EEC1 , hellip; , EECn。P1or;...or;PN =True,LM1,...,LMN是本地映射,且i isin;{1 ,hellip;, n}.。

定义6 全局元素簇的垂直映射VM GEC=lt;K,A,S,Q,Mgt;是一个操作,其中变换GEC成一组出口元件簇,EEC1(K1 , A1 , S1 , Q1 , M1), hellip;, EECn(Kn , An , Sn , Qn , Mn),根据一组给定的成对lt;R 1 , T1 gt;, hellip;, lt;Rn , Tn gt;,其中(1)K 1 =K 2 =hellip;=Kn =K ;(2)Ai =Ri cup; Ki ;(3)Si =Ti ;(4)Q1 =Q2 =hellip;=Qn =Q ;(5)Mi =LMi 。

这里,K,K1,...,Kn是GEC的关键属性,分别EEC1 , hellip; , EECn。是本地映射,且。为确保全局元素簇的正确重建,关键属性应该被映射到各个出口元素集群。

水平映射定义元件如何全局群集将通过一组给定的条件下纵横映射到出口元素簇,而垂直映射剂量在MDBSs属性和子元素簇。全球模式映射该楞thwise类似于在分布进行分区操作数据库系统(DDBS),但并不完全一样。例如,可以有不同的出口元素簇的资格之间的一些交叉点,也就是,可水平映射之

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[29427],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版