

英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料
处理大数据缺失数据方法的研究
阿格达尔的穆罕默德五世大学,拉巴特,摩洛哥,Imane Ezzine ;Laila Benhlima
摘要:提高数据质量不是最近需要研究的领域,但在大数据的背景下,这是一个具有挑战性的领域,因为对数据质量至关重要,例如,提高大数据分析的准确性或避免存储冗余数据。丢失数据是面临数据质量的主要问题之一。在关系数据库中使用了几种方法和方法来处理丢失的数据,其中大部分数据已经适应大数据。本文旨在概述处理大数据上下文中丢失数据的一些方法和方法。
关键词:数据完整性;大数据;数据模型;字典;机器学习算法;机器学习;测量
1 介绍
过去,小型数据库中的数据存在质量问题,但由于数据库的大小是可管理的,因此在数据处理后很容易清理数据集并获得准确的结果[14]。如今,随着大数据的出现,数据来自许多不同的来源; 并非所有这些来源都经过验证。因此,数据科学家经常检查数据是否缺失值,然后执行各种操作来修复数据或插入新值。丢失数据是有问题的,因为许多统计分析需要完整的数据才能进行良好的分析。此外,有监督的机器学习方法使用这些数据来训练他们的模型。在海量数据的背景下,找到缺失值更具挑战性。已经提出了许多方法来解决大数据的这个问题,但据我们所知,这些方法没有现有的评论或概述。在本文中,我们旨在提出一项研究,以突出其中的一些方法。
本文的其余部分安排如下。我们在第2节介绍一些数据质量指标,尤其是与缺失数据相关的指标。第3节介绍了处理大数据缺失数据的三种方法,接下来在第4节中,给出了关于这些方法的讨论,最后,我们得出结论和一些未来的工作。
2 数据质量指标
可以通过许多不同方式定义数据质量。从最普遍的意义上讲,当数据适合在给定环境中服务于其目的时,存在良好的数据质量[22]。
数据质量没有确切的定义,但有一些流行的措施能够表达数据的质量,如[1],[2]:
- 准确性:如果数据代表现实或可靠来源,则表达。这是一个非常昂贵的标准,因为必须有一个外部参考框架,否则有必要进行调查以检查数据的准确性。
- 一致性:关注不同数据实例中的数据值或与已知参考数据域中的值的一致性。这是一个标准,要求检查数据是否满足一组约束,以确定它是否一致。
- 唯一性:指定每个真实元素在数据集中只表示一次且仅表示一次
- 合规性:如果数据符合适当的公约和标准,则表达。例如,值可能是正确的,但遵循错误的格式或公认的标准。
- 完整性:与数据存在的事实有关,即值不为空。不完整的数据会在数据分析过程中产生不确定性,必须在此过程中进行管理。
为了验证这最后一项措施,信息完整性涉及数据集是否具有完整的信息来回答查询或为监督机器学习算法提供有效的模型。
要评估不同环境下的数据完整性,我们应该提出以下问题:
- 对于事务系统:给定数据集D和查询Q,我们想知道是否可以仅使用D中的数据来正确回答Q.
- 对于ETL:给定数据集D和ETL X,如果数据仓库事实表在ETL过程中缺少值,我们想知道对准确性的影响。
- 在机器学习模型构建中:给定数据集D和M是从机器学习算法推导出的模型,我们想要通过仅使用D中的数据来知道M是否可以是可信的预测模型。
提出了几种数据质量技术来清理数据集中的混乱元组,特别是研究人员的目的是找到数据集中缺少的关键信息。在本文中,我们将重点介绍在大数据环境中处理缺失数据的一些方法。
3 丢失数据的数据质量方法
在开始格式化纸张之前,请先将内容写入并另存为单独的文本文件。格式化之前完成所有内容和组织编辑。请注意以下AD部分,了解有关校对,拼写和语法的更多信息。
接下来,我们提出了三类技术:第一类基于数据存储库,第二类基于功能依赖(FD),最后一类基于机器学习算法。
A.缺失数据的数据存储库
在一些研究[2]中调用的数据存储库或数据字典(DD)是包含某些属性的所有可能值的工具。它是确保数据完整性的主数据。
数据字典可以看作一组三元组:CatDD(类别,信息,子类别(语言))。
图1描述了数据逻辑(DD)的情况,其中:
- n是类别的数量,
- p满足一个类别的值的数量
- 六个子类别。
该过程包括通过定义其列的类别和子类别来重新创建数据集,定义新列之间的功能依赖性,然后查找数据字典中对应的缺失信息。
表1 数据字典的示例
B.基于功能依赖性的方法
功能依赖性(FD)是从描述列之间关系的管理规则推导出来的。然后必须分析成对的柱或柱组。接下来,我们在总结基于FD的缺失数据方法之前,简要回顾一下功能依赖性定义。
1)功能依赖性(FD)
最近在数据清理的背景下引入了功能依赖(FD),特别是用于解决缺失数据问题。FD的正式定义如下。
定义1:设C是数据集(DS)的模式,例如C是列的集合,X和Y两个列的子集,例如X和Y是C的子集。
换句话说,对于X的每个值xi,只有Y的一个对应值yj。
2)FD缺失数据
基于FD处理缺失数据的方法是多种多样的[2],[6],[11]和[17]。它们包括识别FD,分析它们并保留可能的FD,然后应用它们根据FD完成数据。在[6]中,作者建议使用一些算法(如条件函数依赖的目标函数和代价函数)[23]提取FD ,并在正确的参考表上提取所有经过验证的FD ,然后用该表检查不合适的记录并进行校正。
3.3基于机器学习的方法
在许多使用数据挖掘应用程序的研究中,通过从大量数据中进行演绎学习来清理缺失数据有不同的方法和方法。他们中的一些使用回归,贝叶斯形式,决策树或聚类算法等技术,以及基于数据插补的技术,如KNN或随机森林[7],[8],[10],[13],[15],[16],[18],[21]和[23]。接下来,我们关注两个作品:第一个是基于随机森林,第二个是基于KNN。
3.3.1随机森林
随机森林(RF)是一组个体分类树预测器(Breiman 2001)。对于每个观察,每个树投票选出一个类,森林预测具有最高投票率的类[7]。
RF算法可以通过利用RF接近度对变量中观测值的频率进行加权来处理缺失值,这是在初始平均估算的数据集[19]上进行训练之后的重要信息来源[20]。但是,这种方法需要一个完整的响应变量来训练森林。相反,通过应用多维尺度[20],使用在数据集的观测部分[13]上训练的RF直接预测缺失值[20]。
为了确保数据的完整性,[19]中的作者提出了一种基于随机森林的方法,称为遗失森林。该方法需要第一次幼稚插补(插补意味着能够确定和分配缺失数据项的值的过程[25]),默认情况下是平均值的完成,以便获得完整的学习样本。然后将一系列随机森林调整为模型的第一次降级。
3.3.2 KNN方法
KNN算法的原理如下[18],[22]:给定要分类的文本,该算法在学习阶段期间使用的文档中查找k个最近邻居,这些k个最近邻居的类别用于给予类别分类候选者权重。它是测试文档和相邻文档之间的相似程度,用作后者类别的权重。如果几个邻居共享相同的类别,则分配给该类别的权重等于测试文档与属于该类别的每个邻居之间的相似度之和。通过这种方法,我们可以获得分配给每个类别的权重列表。如果分配给它的权重大于预先设定的阈值,则将测试文档分类。
基于距离测量选择k个邻居,并且将它们的平均值用作插补估计。该方法需要选择最近邻居的数量和距离度量。KNN可以预测离散属性(k个最近邻居中最常见的值)和连续属性(k个最近邻居中的平均值)
- 选择与缺失值最相似的K点。为了估计第j个样本中第i个斑点的缺失值xij,选择K个斑点,其表达向量类似于除j之外的样本中的i的表达式。
- 通过使用第j个样本中观察到的分量的欧几里德距离来测量两个表达矢量xi和xj之间的距离。
- 将缺失值估计为K个最近邻居的平均值。
[16]中的作者使用Knn通过计算根据数据类型而变化的距离度量来处理丢失的数据[16]:
- 如果目标示例中的缺失值是符号,这意味着如果xi等于Yi则设置为0,如果xi不等于Yi,则设置为1,该方法使用k示例中相应属性值的模式来替换缺失的价值。
- 如果目标示例中的缺失值是连续的,则该方法使用k示例中相应属性值的均值来替换缺失值。
4 讨论
所有提供的方法都能够处理丢失的数据。它们具有我们在下面讨论的优点和缺点。
在自动提取函数依赖性的情况下,我们并不总是具有插入值的良好准确性,因为我们可以推导出无意义的FD。
基于数据字典的方法假设具有该字典中某些属性的所有可能值。对于大数据上下文中的某些属性,这是不可能的。此解决方案的另一个问题是必须仔细填写数据字典。否则我们最终会得到糟糕的结果。字典的丰富过程本身就很乏味。
当应用于数据具有结构化格式的关系数据库时,基于FD和DD的方法可以很好地解决缺失值问题。在大数据上下文中并非总是如此,其中数据是半结构化的和非结构化的(例如文本文档)。
在基于机器学习的缺失数据方法的情况下,建立模型来预测缺失值。然而,建立一个好的模型取决于选择正确的属性以避免相关数据,从而避免产生有偏差的模型。在处理数百个属性时,在大数据的上下文中难以选择特征。
另一方面,数据插补的使用并不总是合适的,原因有二:首先,预测估算的值,它只是接近实际值的一种手段。其次,它们给模型带来了不确定性,在估计方差时应该考虑到这一点[4]
在KNN方法中,如果缺失率高于70%,则一些不同k值高于1的测试表明,彼此的结果之间没有太大差异,结果为 k = 1比其他值的其他结果好一点[16]。
5 结论
数据质量问题包括噪声,异常值,丢失或重复数据的存在。在提高数据质量时,通常还会提高结果分析的质量。在本研究中,我们分析了处理缺失数据的三种方法。虽然FD和DDs方法在大数据的上下文中给出有限的结果,但是机器学习方法更有效但是为了具有良好质量的预测模型,它需要额外的数据预处理,例如特征选择。在这个大数据新时代,数据质量需求越来越大。我们的目标是寻找新的算法来提高大数据的数据质量,并找到更准确地评估数据质量的新方法。
参考文献
[1] Suraj Juddoo, Overview of data quality challenges in the context of BigData, IEEE, 2015.
[2] BEN SALEM. Aicha, Qualite contextuelle des donneacute;es: Deacute;tection et nettoyage guideacute;s par la seacute;mantique des donneacute;es, 2015.
[3] Fei Tang, Hemant Ishwaran, Random forest missing data algorithms University of Miami Statistical Analysis and Data Mining, June 2017.
[4] Nikolas Mittag Harris, Imputations: Benefits Risks and a Method for Missing Data, Harris School Of Public Policy, University of Chicago, May 2013.
[5] Fei Tang, Hemant Ishwaran, Random Forest Missing Data Algorithms Division of Biostatistics, University of Miami, January 2017.
[6] Houda Zaidi, 'Ameacute;lioration de la qualiteacute; des donneacute;es: correction seacute;mantique des anomalies inter-colonnes' in National Conservatory of Arts and Crafts-CNAM, Nov 2017.
[7] Rehanullah Khan, Allan Hanbury2, Julian Stoettingerl, DETECTION: A RANDOM FOREST APPROACH Proceedings of 2010 IEEE 17th International Conference on Image Processing, pp. 26-29, 2010.
[8] Streams Arinto, Murdopo Distributed Decision Tree Learning for Mining Big Data, Jul
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[20082],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
