- 文件综述(或调研报告):
观测数据部分缺失或不可用导致数据不完全的问题是各领域数据处理中的常见问题。由于观测数据的不完全,数据处理过程不同于完全观测数据而更加复杂,处理不当则会影响成果的质量,造成成果的不合格,给生产和研究工作带来诸多不利影响。[1]
其实,在如今这种信息爆炸的时代完整的和正确的数据是很难获得的。考虑到调查研究中数据的重要性,我们在研究工作中需要不断地采集数据,从大量的数据中抽取出对我们有用的知识来指导我们的实践,但是,收集的数据量越大,可能造成缺失数据的情况就越严重,这本身就是一对矛盾。因此,这不仅仅是必须针对大量的数据进行分析处理得到正确结果的问题,同时也需要对缺失数据给出适当的填补措施,使得数据的分析更加有意义[2]。
常规的测量数据处理方法均是基于完全测量数据的,由于不完全测量数据的存在,常规的测量数据处理方法已不再适用或已不是最优估计。因而当出现不完全测量数据时,应选择更加合适的处理算法,以获得不完全测量数据下的未知参数的最佳估值。对于缺失数据的处理方法,许多领域国内外学者已经做了大量的研究,取得了丰富的成果,提出了许多方法,有效地改善了缺失数据下数据处理的质量。
填充缺失值的方法包括确定性单一插补方法和随机插补方法。缺失值有着几种不同的推断机理以及效果,其中多重插补法的出现,弥补了单一插补法的缺陷。[3]第一,多重插补过程产生多个中间插补值,可以利用插补值之间的变异反映无回答的不确定性,包括无回答原因已知情况下抽样的变异性和无回答原因不确定造成的变异性。第二,多重插补通过模拟缺失数据的分布,较好地保持变量之间的关系。第三,多重插补能给出衡量估计结果不确定性的大量信息,单一插补给出的估计结果则较为简单。与单一插补相比,多重插补唯一的缺点是需要做大量的工作来创建插补集并进行结果分析,因为它主要是执行若干次相同的任务,而非一次,然而数据分析中大量工作在今天的计算环境下是比较容易实现的。[4]
贝叶斯理论可以被认为是历史上最早的一种统计推断方法,后来逐渐被统计学者们发展,成为系统的统计推断方法。[5]而贝叶斯统计在理论上的进展和在应用上的效益和方便,使得更多的人了解并使用它,甚至一些贝叶斯学派的学者认为贝叶斯理论是唯一的合理的用于统计推断的方法。贝叶斯理论的特点是用概率来表示所有形式的不确定性。随机变量的概率分布表示了贝叶斯学习的结果,并且可以解释成对各种可能性的信任度。贝叶斯理论预测缺失数据值的概率分布,并根据不同的策略来补全缺失数据。
参考文献:
- 武瑞仙,邓子兵,谯治蛟,李晓松. 利用Monte Carlo技术模拟研究不同缺失值处理方法对完全随机缺失数据的处理效果[J]. 中国卫生统计, 2015, 32(3):534-536.
- 林东方. 基于EM算法的不完全测量数据的处理方法研究[D]. 中南大学硕士学位论文,2012.
- 邓银燕. 缺失数据的填充方法研究及实证分析[D]. 西北大学硕士学位论文. 2010.
- 张香云. 缺失数据的借补方法及在林分生长模型中的应用研究[D].苏州苏州大学, 2006
- 胡芳芳. 缺失数据的贝叶斯模型处理[D].中南大学硕士学位论文. 2011.
- 冯志兰. 缺失数据的估计与应用[D]. 太原: 山西医科大学 2003
- Wilkinson G.N.The Analysis of Variance and Derivation of Standard Errors for Incomple Data.Biomatrics,1958,9:360-385.
- J.L.Schafer,Maren K.Olsen.Multiple imputation for multivariate missing-data problems:a da analysisrsquo;s perspective.http:www.Multipleimputation.com.
- Blake,C.amp;Merz, C. (1998). UCI Repository of machine learning database. [http://www.ics.uci.edu/~mlearn/MLResoesitory.html] Irvine , CA: university of California,Department of Information and Computer Science.
- 施学忠. 艾滋病中医证候的统计建模研究[D]. 郑州: 郑州大学,2008.
- 殷杰,石锐. SAS 中处理数据集缺失值方法的对比研究[J]. 计算机应用,2007,27( 增刊) : 439
