模糊数据表示和XML数据库查询外文翻译资料

 2022-11-04 17:09:43

模糊数据表示和XML数据库查询

真实世界的信息,包括主观的意见和判断,需要不精确数据为蓝本来表示并在数据库中查询。近年来,可扩展标记语言(XML)事实上已经成为数据建模和交流的标准。在XML中,对不精确性的建模和代表这些数据做出的努力没有得到充分发展。本文中,提出了基于XML的模糊数据表示和查询系统。用模糊扩展的XML来表示复杂和不精确的数据。这种表示法形成了一个基础系统,能够在XML文档使用XML的一种查询语言XQuery进行模糊查询。该系统还可以通过XML架构重组,合并XML元素文件。通过使用此功能的系统,应用程序特定的XML架构和XML文件可以从现有的文件中产生。

关键字:模糊查询,XML,原生XML数据库。

1、简介

数据库是数据的一个有组织的集合。传统的数据库管理系统特别适合于代表那些使用标准结构的清晰、明确界定的数据,。然而,现实世界的信息,包括主观的意见和判断,需要复杂和不准确的数据建模同时也需要明确界定的数据。在数据库中代表这种不确定性和复杂的数据仍然是一个正在研究中的问题。扩展非第一范式(ExNF2)[1]数据模型是一个已为拟议的代表这种不确定和不精确数据模型。

可扩展标记语言(XML)[2][3][4][5],被广泛用于数据代表和交换。XML允许内容和表现的分离,也就是说,XML文档简单定义了数据表示但是并不处理它的表现形式。XML可以用来表示复杂和层次性的信息,这是ExNF模型的基本造型结构。

选择最合适的数据库管理系统,以处理基于应用程序和数据结构的XML数据。随着越来越大的数据量作为XML文档表示,有必要有效地存储和查询这些XML文档。在管理XML数据中,原生的XML数据库比传统的数据库管理系统具有几个优点。当数据是半结构化时,映射到一个关系数据库结果中将导致大量的空列(浪费空间)或大量的表(低效的)。另一个在原生XML数据库存储数据的原因是检索速度。原生XML数据库在物理存储数据方面,检索数据比关系型数据库快得多。这是因为原生XML运用存储策略存储整个文件或在文件的各部分中使用物理(而不是逻辑)指针;允许要检索的文件没有连接或存在物理连接,这两者速度都比关系型数据库上的逻辑连接据库快得多[11]。

几个XML查询语言(如XML- QL的[6],XPATH[7]和XQuery[8])已经被XML提出。XML的一个特有优势在于它在代表来自不同来源的信息时具有的灵活性。要利用此灵活性,XML查询语言必须为这些不同来源的信息提供检索和解释功能。XQuery[8]已被W3C批准作为用于XML查询的标准语言[9]。

在数据库领域中,传统的查询语言允许在精确的数据的基础上进行数据选择。查询的价值在于能在那些完全满足查询条件和那些不满足条件的地方产生Boolean分区数据。现实世界信息是既复杂又不确切,许多知识密集的应用程序需要使用这些数据[10],[12],[13],[14],[15],[16],[17]。使用模糊逻辑查询允许用户自定义软目标和约束,并向用户提供查询数据的相对重要性。

本文中,我们介绍了将复杂和不确定的数据映射到XML代表的方法。这项研究的动机是为了在XML文档中的结合模糊和不确定的数据代表处理ExNF数据模型性并推广XML数据库系统的使用。

XML的结构非常类似于关系数据库元组,因此,将INF文件的元组映射到XML元素是很简单的[18][19]。然而,ExNF模型[1]介绍的是经扩展的,较复杂的,不确定的和模糊的数据,不容易用XML表示。在这项研究中,XML文档适用于ExNF2模型的格式,包括代表不精确、复杂性数据的元素和属性。我们使用这些概念,开发一个系统,允许在XML文档中进行模糊查询。系统中XML文档的概念通过模糊属性得到扩展。除了模糊查询,系统可通过合并XML文档的元素重组XML架构。通过使用此功能的系统,特定的XML Schema应用程序和XML文档可从现有的文件中产生。要查询的XML文档在原生XML数据库管理系统塔米诺[20]中存储。

本文的组织构架如下:第2节将描述以XML为基础的模糊查询系统的设计。第3节将描述在实施这项研究中所做的细节性工作。最后,第4节作出结论总结。

2、基于XML的模糊查询系统的设计

本节中,我们首先提出包括在这项研究中的模糊和其他不确定属性的定义以及它们的XML表示。参考模型是ExNF数据库模型[1]。

2.1系统目标

这项研究的主要目标是开发一个系统,它通过使用由非第一扩展范式(ExNF2)[1]的扩展介绍,在XML中,为现实世界的数据提供了一个模型。在XML数据中执行模糊查询,并允许XML模式转型。该系统应以图形用户界面提供用户构建模糊查询和XML重组架构。

2.2复杂和不确定的数据建模

本节引入在ExNF模型[1]中介绍的属性类型的定义以及在属性类型的XML表示。在ExNF模型中属性类型的介绍包括原子,空值,设定值,关系值,模糊值,范围值属性以及XML表示形式的基础。

2.2.1在ExNF数据模型中不确定性的代表

在数据库中不确定性可以通过扩展的嵌套关系[21][22]代表而非INF数据模型[23],[24],[25]。扩展模型,即扩展非第一范式(ExNF)[1],在数据库中提供包括不确定性的扩展是必要的。 ExNF关系可以定义如下[1]:

定义:定义Sch R是一个与属性R相关的属性(A1,A2,hellip;hellip;,An)。每个属性Aj可能是简单的设定值,模糊值,范围值或关系值,如下文定义。假设D1, D2,hellip;hellip;,Dn是有限域设置。使e,R的一个实例,组成一套有序的形式lt;a1, a2,hellip;hellip;,angt; ,这是(D1 x D2xhellip;hellip;x Dn)的一个子集。Dj(1lt;jlt;k)的域,可以是以下内容中的一个:

  1. Dj是一个原子值属性域。每个值Aj是Dj的一个元素;也就是说,它是一个典型的简单明确界定的属性值。

(二)Dj是一个空值的属性域。域名Dj组成了明确定义的值{a1,a2,hellip;hellip;,an}可以扩展到域Dj= DjU {unk,dne,ni}。

(三)Dj是一个不完整(范围)值的属性,其值可以是原子或一个区间。区间表示为[aj1 - aj2],其中aj1为最小值,aj2是范围的最大值。这两个值都取自域Dj。

(四)Dj是一个模糊值属性域。域包含了一组模糊集语言。一个模糊的属性值是一个非空子集的Dj和[aj1,aj2,hellip;hellip;,ajm]的代表。

(五)Dj是集值属性域,其值代表明确界定的集{aj1, aj2,hellip;hellip;,ajm}。任何这个属性的值都是Dj的一个子集。

(六)Dj是关系值(复合)属性域。这个属性的任何值,Aj,是一个元组lt;aj1,Aj2,hellip;hellip;,Ajmgt;的形式,这是(Dj1 x Dj2xhellip;hellip;xDjm)的一个元素,其中1 lt;m并且1lt;jlt;k。

当Dj是一个关系值(复合)设置属性域时,其中每个Aj值是{lt;aj1, aj2,hellip;hellip;,ajmgt;,hellip;hellip;,lt;ak1, ak2, hellip;hellip;,akmgt;}的一个元组,这是(Dj1x Dj2 x hellip;hellip; xDjm)的一个子集,可以通过关系值和设定值的组合来形成这种属性。

定义:假设R和S是Rel A和Att A中的属性,且是dom中存在的常数。在这里使用的类型比那些关系数据模型更复杂。他们的抽象语法为:

x = dom| fdom| ndom| idom|(B1:x1,hellip;hellip;,Bm :xm)|{xs},

其中xsne;fdom| idom|{X}且B1,hellip;hellip;Bm是截然不同的属性。直观地看,一个元素dom是一个常数(传统的明确界定的原子属性),fdom是一个模糊值排序属性(可能形成一个集或语义)[v1,hellip;hellip;,vm]的形式,其中vj是dom的一种并且是任何本集的子集元素;ndom是{unk,dne,ni,x}一个空值的排序属性形式,其中x排序dom; idom是[v1 - vj]的一个排序不完整的形式,vj的排序dom和元素是vj,v1 le;vile;vj;(B 1:x1,hellip;hellip;Bm:xm)的排序元素是K元组在Bj的排序xi的一个元素,1lt;ilt;m;排序元素{xi}是排序X的一个有限集合元素。

定义:从形式上看,排序x的值(即x的解释),记为t [x],定义如下:

(一)t [dom] = dom,
(二)t[fdom]= {[v1,hellip;hellip;, vj] |Vi:1 le;i le;j:viisin;t[dom]},
(三)t [ndom]= {vi | Vi:1le;i le;j:viisin;t[{unk,dne,ni}cup;dom}]},
(四)t[idom]= {[v1 - vj] | Vi:1 le;i le;j:v1le;vile;vj,viisin;t[dom]},
(五)t[{xs]={{v1,hellip;hellip;,vj} | Vi,j:1le;ile;j:viisin;t [xs]。如果t[{xs}] = { },那么vi = dne},

(六)t [(B1:x1,hellip;hellip;,Bm:xm)] = {(B1:x1,hellip;hellip;,Bm:xm) | Vi:1le;ile;m:Viisin;t[ xi]}。

R由关系名和数据库架构的关系名称的有限集合组成。关系名称R的一种关系是有限排序值(R)。比如I的架构R是R的函数,在这里I是R关系的实例。当关系R有一个排序,即(R)=(B1:x1,hellip;hellip;,Bm:xm),这种关系由元组组成,其中每个xi可能是上述给出的解释之一。

2.2.2.在XML中表示不确定性

XML文档是一个由逻辑结构(由文档对象声明,注释,字符引用,元素,和处理指令构成),和物理结构(由实体,开始的根,或文档实体组成)构成的。每个元素都有一个类型,有名称标识,并且可能有一组属性规范。属性规范有相应的名称和值。XML架构的元素有两种主要类型:简单的和复杂的。简单的元素内他们定义为零属性和零元素,而复杂元素的定义允许有一个或多个属性或一个或多个元素。复杂的因素可能会进一步归类为:空元素,只包含其他元素的元素,只包含文本的元素,同时包含文本和其他元素的元素。

在XML文档中,原子属性代表了明确界定的数据。这些原子属性在XML文档中可以作为元素的值。例如,一本书的标题是一个原子属性。

在XML中的空值可以代表新值或引入的字符数据,如ni(无信息),unk(未知),和dne(不存在)。例如,可以用以上的值来形象的描述一本书的封面。

集值属性是指在一个属性中有几个值。其中每个值可以作为一个元素添加到XML,这是使用XML的一种使用方式,而不是仅仅把一个个值串起来。例如,一本书可能有多个作者,每个作者在“作者”的标签内添加“作者”的标签。图1显示了一个例子。

图1 XML集值属性的示例

模糊值属性用来表示不精确或模糊的数据。用于表示模糊值属性,如“红色”或“绿色”,被用于表示一本书的颜色。一个模糊值(集)用来存储元素的值。

模糊数据的语义在“色”元素中作为一个模糊术语用来表示“模糊谓词”属性。模糊值属性可能有各种语义,如“或”,“异”,“和”等有关的模糊值。图2是给出的一个例子。

图2 XML模糊值属性示例

范围值(或不完整的值)属性,是用来指定一个字符串格式的范围值。我们为书的价格信息存储价值不等的属性“最低价”和“最高价”标签。如图3所示是一个例子。

图3 XML范围值属性示例

在关系值属性中,字段的内容是其他元组的指针。关系值属性代表设置值属性,即对于每个值,都作为一个完整关系的元素在元组中出现。举例来说,关系值属性代表“形象”,“颜色”,“说明”的“形象”元素。如图4所示就是一个例子。

图4 XML关系值属性的示例

2.3.数据对象和数据库设计

在这项研究中,所有的数据都是XML格式,并存储在原生XML数据库管理系统中。除了数据,就是模糊属性的相似性表,与属性值相关,也以XML形式存储在数据库中。

在系统书籍(如图5所示为一个完整的示例)作为数据对象被选择。产品信息是由Web服务检索从XML文档中获得的,这些文件被转化为本地XML架构使其适合应用程序。这种转变后,这些文件插入到数据库中。XML文档存储在数据库中有一个示例[9]。 用来表示存储产品信息的XML文档XML构架如图5所示。

一本书的封面用模糊的“颜色”属性来表示。一本书的封面可能有多种颜色。由于“颜色”是一个模糊属性,糊的颜色值的相似矩阵[10],[11]存储在一个XML文档中。为了说明概念模糊的“主体”属性,有关问题的相似性值将存储在一个XML文档中。

图5 一个产品的XML构架表示

3.系统的特点

本节中,对系统的功能特性进行了简要解释。

3.1.数据库查询

在系统中,用户可以查询在塔米诺XML服务器中其属性数据存储为XML文档的书籍。图形用户界面允许用户选择或输入自己的搜索条件。在这些搜索条件基础上形成一个XQuery表达式。 XQuery表达式发送到塔米诺XML服务器并且查询结果会

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[140273],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版