

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
挖掘序列模式算法比较
摘要 - 序列模式挖掘是一种非常重要的采用技术,具有广泛的应用。它发现在自然灾害,销售记录分析,营销策略,购物顺序,医疗和DNA序列等各个领域都非常有用。它从给定的序列中发现子序列和频繁的相关模式。我们提供了具有序列的序列数据库,其中每个序列是由事务时间排序的事务的列表。每个交易由项目数量组成。问题是从给定的序列数据库中发现满足用户指定约束的所有顺序模式。先前提出了各种顺序模式挖掘算法,其中一些是GSP,SPADE和PrefixSpan。建议从序列中找出相关的频繁模式。在这些算法中,时间戳是每个数据集的一个重要属性,并且在数据挖掘过程中重要的是提供更准确和有用的信息。本文提出了这些整体算法的详细调查。首先我们用这些算法对这些算法进行分类,以解决挖掘问题,然后通过各种提供的特征和性能来比较每个算法。
关键词:顺序模式挖掘;序列数据库先生GSP;SPADE; PrefixSpan
一,引言
数据挖掘是对数据运行强大的算法提取有用知识的过程。它在市场分析,决策支持,欺诈检测,业务管理等各个领域都很有用[1]。已经提出了许多方法来从输入序列中提取信息,顺序模式挖掘是最重要的方法之一。该挖掘算法解决了在给定数据库中发现频繁序列的存在问题[2]。给定该算法的数据库是一组序列,称为数据序列,作为输入数据。每个数据序列是一个事务列表,每个事务包含一组文字,称为项。请注意,事务中的项目顺序(项目集)无关紧要。换句话说,如果序列alpha;是事件lt;a1,a2,...,amgt;的有序列表,则序列alpha;是频繁序列。事件是项目aisube;i1,i2,...,ik的非空无序组。序列alpha;= lt;a1,a2,...,amgt;是beta;= lt;b1,b2,...,bngt;的子序列,当且仅当存在i1,i2,...,im,使得1le; i1 lt;i2 lt;... lt;imle;n和a1sube;bi1,a2sube;bi2和amsube;bim。给定序列数据库D = s1,s2,...,sn,序列alpha;的支持是包含alpha;作为子序列的D的序列数。如果alpha;的支持大于阈值MaxSup。序列数据库由元组组成,其中每个元组由序列ID,事务ID和项目集组成。序列的一个例子是{(ABD),(CDA)},其中项目ABD表示在客户的第一个交易中购买的项目,CDA表示在同一客户的后续交易中购买的项目。
二,挖掘方法
顺序模式挖掘被定义为在顺序事务数据库集合中发现整组频繁子序列。顺序模式挖掘发现不同事务之间的相关性。它发现单个客户哪些项目,具有这些项目来自各种交易,带来了特定的顺序。在挖掘之后发现的结果模式是通常以特定顺序发现的项目集的顺序。连续模式挖掘用于不同的领域用于不同的目的。它可以用于识别客户购物序列,以确定哪个项目特定客户依次携带[3] [4]。已经实现了用于从序列数据库中识别频繁序列的各种算法。
[2]中描述了采用顺序模式的问题,并通过各种其他算法进行了改进。许多研究和改进方法有助于顺序模式挖掘,使其更有效率。序列模式挖掘算法可以大致分为三种方法:基于Apriori(GSP,SPADE,SPAM),模式增长(FreeSpan,PrefixSpan),早期修剪(LAPIN-SPAM)。有很多算法用于顺序模式挖掘,但是我在这里展示了我研究的一些好的算法,这些算法的优点和缺点。
三, 基于APRIORI的方法
Apriori算法首先由Agrawal在[2]中提出,用于发现频繁项集。 它是用于发现频繁项集和关联规则的最广泛使用的算法。 Apriori算法的主要概念是:频繁项目集的任何子集是频繁项集。
它通过识别数据库中的所有频繁的个体项目并将其扩展到更大的项目集来推进,只要这些项目集合经常出现在序列的数据库中。
图(2):Apriori算法步骤
A. GSP(通用序列模式)算法
GSP发现顺序模式。相对于每个数据交易的数量和每个事务的数量(数据的大小增加),它具有非常好的扩展属性。 GSP算法不是主内存算法,它会对数据进行多次传递,如果候选人不适合内存,则算法只会生成适合内存的候选数据,并扫描数据以支持数据的这些候选人。将这些候选者产生的频繁序列写入磁盘,而没有最小支持的候选者将被删除。重复此过程,直到所有候选人被计数。
A.1算法程序:
步骤1:首次传递到序列数据库的算法确定每个项目的支持(包括项目的数据序列数)。在第一遍结束时,算法知道哪些项目是频繁的(具有最小支持)。在下一步中,我们称该步骤频繁序列(F)或下一次迭代的种子集合的数据结果。
步骤2:通过将长度(k-1)与其自身的种子组合,生成长度(k)的候选序列(C)。
步骤3:通过从长度为(Ck)的候选序列中删除不具有最小支持度的序列来生成频繁序列(Fk),我们将其命名为剪枝。这将成为下一次迭代的下一个种子集。
在每次下一次迭代时,每个候选序列比种子序列多一个项目。因此,在每个步骤结束时,每个交易只包含最初包含的频繁元素。重复步骤2,3,直到在通过结束时没有频繁序列,或者当没有生成候选序列时。
GSP算法中的三个关键创新是如何生成候选人,修剪方法如何完成以及候选人的计数方式。
1)候选生成:给定频繁(k-1)序列Fk-1的集合,通过将Fk-1与其自身相加来生成下一遍的候选。 为了快速计数,候选序列存储在散列树中。 我们可以在图(3)中看到。
2)修剪阶段消除了任何序列,其中至少一个子序列不频繁。
3)支持计数:为了查找输入序列E中包含的所有候选项,概念上生成了E的所有k个子序列。 对于每个这样的子序列,在散列树中进行搜索。 如果哈希树中的候选者与子序列匹配,则其计数递增,创建一个散列树[2],其叶指数为候选者。 这加快了对序列的最小支持进行计数的过程,并且在处理事务时减少要检查的序列的数量。
图(3):GSP算法(候选生成)。
因此,GSP算法不仅解决了基本的频繁挖掘问题,而且还可以处理严格的时间限制和项目分类。但是,这种类似Apriori的顺序模式挖掘方法只有三种不平凡的固有成本,它们与详细的实现技术无关:
1)候选序列集合的潜在大索引存储。
2)数据库的多次扫描。
3)开采长期模式的困难(因为需要生成大量的小候选人)。
通过使用基于Apriori的相同概念的新算法来克服这些重复的数据库扫描和复杂的内部数据结构的问题,称为SPADE(使用等价类的顺序模式发现)。
B. SPADE(使用等价类的顺序模式发现)
虽然GSP算法使用Apriori水平数据格式进行顺序模式挖掘,但SPADE [3]算法使用映射为垂直数据格式的顺序数据库,从而将每个项目作为观察中心,并将其相关的序列和事件标识符作为数据集。
该算法在1998年由Parthasarathy,Zaki和Li提出,克服了GSP的所有局限性以及解决序列模式挖掘的目标。 SPADE不仅通过减少数据库扫描来最小化I / O成本,还通过使用有效的搜索模式最大限度地降低了计算成本。
使用的垂直数据库格式包括维护每个项目的id列表。每个序列都是一个对象的列表,它们的时间标记为lt;SID(序列ID),EID(事件ID)gt;,我们可以在图(4)中看到它。
B.1算法程序:
步骤1:计算1序列的频率,其是仅具有一个项目的序列。这是在单个数据库扫描中完成的。
步骤2:由2序列计数组成。这通过将垂直表示变换为存储器中的水平表示,并且使用2D矩阵对每对项目的序列数进行计数来完成。因此,该步骤也可以仅在一次扫描中执行。
步骤3:后续的n序列可以通过使用其id列表连接(n-1) - 序列而形成。 id-lists的大小是项目出现的顺序数。如果这个数字大于minsup,则该序列是频繁的。当不再发现频繁序列时,算法停止。该算法可以使用广度优先或深度优先搜索方法来查找新序列[5]。
改进特点如下:
1)通过减少数据库数量降低I / O成本
扫描,其中所有序列仅在三个数据库扫描中被发现。
2)第二个特征是算法数据结构构造的模块化方法,允许更容易的问题分解,其中算法的每个部分可以独立开发和调整。
3)作为最后一点,算法不会使用复杂的散列和/或数据结构,不仅允许更简单的理解,还允许更简单的实现。
GSP算法和SPADE算法共享优缺点,因为它们基于Apriori模式提取方法。
四,基于模式增长的方法
基于模式增长的方法的一般思想是,不是重复扫描整个数据库,并生成和测试大量候选序列,可以将数据库中的序列递归地投影到与所采集的图案集相关联的一组较小的数据库中远[7]。然后,基础算法可以在这些投影数据库中的每一个中挖掘当地的频繁模式。
模式增长方法是对序列模式挖掘问题的文献的最新补充。通常省略候选者生成步骤,并且重点更多地在初始数据库的限制部分上。
A. PREFIXSPAN(Prefix Projected Sequential pattern Mining)
Jian Pei,Jiavei Han和Helen Pinto提出的PrefixSpan算法[6]。算法的想法不是通过考虑所有可能出现的频繁子序列来投影序列数据库,所以投影仅基于频繁的前缀,因为通常可以通过增加频繁的前缀来找到任何频繁的子序列,他们提出了一种具有以下的方法两个关键功能。
1)基于投影的:序列数据库被迭代地投影到较小的投影数据库中,仅检查前缀子序列,并将其相应的后缀子序列仅投影到投影数据库中。
2)通过仅调查本地频繁的细分,在投影数据库中顺序增长模式。
PrefixSpan算法主要以三种方式胜过其他方法:
1)不增加候选人生成模式。
2)可以通过有效处理的投影数据库有效地执行数据简化。
3)内存空间利用率大致稳定。
A.1费用:
PrefixSpan不需要生成候选序列。投影数据库不断缩小。 PrefixSpan的主要成本是建立预测数据库。两种数据库预测提高了采矿效率:逐级投影和双层投影。此外,开发了基于主存储器的伪投影(使用指针而不是物理复制后缀序列)技术,用于减少投影数据库的数量和大小,以节省投影成本和加速处理,当投影(子)数据库及其相关联的伪投影处理结构可以适合主内存。
A.2前言概念概述:
alpha;投影数据库是数据库中的一组子序列,它们是具有前缀alpha;的序列的后缀(每个投影数据库具有相同的前缀子序列)。在每个步骤中,算法在相应的投影数据库中查找具有前缀alpha;的频繁序列。以这种方式,每个步骤都减少了搜索空间,允许在存在小的支持阈值的情况下获得更好的性能。一般来说,模式增长方法可以看作是深度优先遍历算法,因为它们以递归的方式分别构建每个模式[6]。
A.3算法程序:
步骤1:考虑到指定的最小支持,扫描顺序数据库S以获取长度为1的序列。
步骤2:顺序数据库根据长度为1的序列数量分为不同的分区(前缀),以获取投影数据库。
步骤3:生成投影数据库:
一个。只检查频繁的前缀子序列。
b。仅项目对应的后缀子序列。
步骤4:可以通过构建支持的前缀的投影数据库来搜索顺序模式的子集。搜索可以是深度优先还是广度优先搜索。
步骤5:对于序列模式重复地投影数据库,直到找不到数据库的频繁序列。
五,序列模式采矿算法的比较分析
为了比较序列模式挖掘算法被分为两大类,如基于Apriori和基于模式生长的算法。首先讨论用于分类这些算法的所有功能,然后对以下算法进行比较。
GSP:广义序列模式。
SPADE:使用等价类来发现顺序模式。
PrefixSpan:通过前缀投影顺序模式挖掘。
A.序列模式挖掘算法的特点:
1)基于广度优先搜索的方法与深度优先搜索的方法:在广度优先搜索遍历技术中,逐级搜索进行查找完整的模式集,即所有相邻节点在移动到下一个节点之前被处理水平。相反,在深度优先搜索遍历技术中,所有的内部节点(分支节点)必须在移动到下一个路径的路径之前进行探索。深度第一搜索是可以快速到达大的频繁碎片,因此可以避免在树中的其他路径中的一些扩展。
2)基于Apriori的vs模式增长基于Apriori类型算法的主要主题是候选生成和测试,其使用向下的更接近的属性。如果一个项目集alpha;是频繁的,那么只有alpha;的超集是频繁的,否则如果不频繁。模式增长策略在创建可能的频繁序列方面采取更好的方法,并使用分治法(递归地将问题分解为相同(或相关)类型的两个或多个子问题),直到这些变得简单到直接解决)为了减少搜索空间,该模式增长算法对数据库进行投影。
3)自顶向下搜索vs自下而上搜索:基于Apriori的算法通过确保每个单个频繁序列使用自下而上的搜索。这意味着为了产生长度为1的频繁序列,必须产生所有21个子序列。由此可以看出,这种指数复杂度在基于Apriori的算法上是限制性的,以便找出只有短模式,因为它们只是通过删除存在不属于该集合的子序列的任何候选序列来发现子集不频繁的修剪频繁序列。在自上而下的方法的情况下,序列模式的子集可以通过生成相对的投影数据库集合进行挖掘,并以递归方式从顶部到底部进行挖掘。
4)反单调与前缀 - 单调性质:根据反单调的性质,它指出顺序模式的每个非空子序列都是顺序模式。并且在前缀单调状态中,如果alpha;序列满足约束,则将具有alpha;作为前缀的每个序列满足约束
5)正则表达式约束:相对确定性有限自动机中状态变化的数量有助于计算正则表达式约束的复杂性。如果满足以下特性,它具有称为基于增长的反单调的不错的属性。必须通过从任何组件生长来满足序列,该组件首先满足约束时与正则表达式的一部分相匹配。
从我
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[25279],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
