全文总字数:3401字
1. 研究目的与意义、国内外研究现状(文献综述)
在社会调查资料中,最为常见的问题就是数据缺失。造成数据缺失的原因有:失访、无响应或是回答问题不合格等等。统计学上,将含有缺失数据的记录称为不完全观测。在生存分析、医药追踪试验、可靠性与寿命试验等许多实际问题中,经常遇到数据缺失的情况。数据缺失给数据的使用和分析带来了很大困难,同时是造成信息系统不确定的原因之一。如何有效的利用带有缺失数据的数据信息进行统计推断具有重要的实际意义。
缺失数据在不同的缺失机制和不同的缺失模式下有不同的分类。按照缺失机制分为完全随机缺失、随机缺失、可忽略缺失和不可忽略缺失;按照缺失模式分为:单调缺失模式、任意缺失模式、单变量缺失模式、潜变量缺失模式。
针对不同类型的缺失数据有不同的处理方法。传统的处理方法有删除法与插补法。删除法会造成可利用的数据较少,所以会造成较大的标准误,导致影响统计结果的问题。插补法会影响数据的客观性,但是针对不同的类型的缺失数据,使用不同的插补处理方法具有一定的实用性。而且在不同的缺失比例下,采用不同的方法有效性也会不同。除此之外,最大似然(ml)可以说是一个有效且实用的方法。当缺失数据机制是可忽略时,我们可以简单的通过加总所有缺失数据可能值的一般似然来获得似然。em算法是取得ml估计量一个非常有效的方法。
2. 研究的基本内容和问题
3. 研究的方法与方案
研究方法:
1. 看书看资料,学习已有的方法。
2. 自学相关统计软件。
4. 研究创新点
1. 选用二维变量情形进行考虑,具有一定的挑战性。
2. 采用EM方法对数据进行处理。该方法通过求期望与进行极大似然估计进行迭代。EM 算法是一种求参数极大似然估计的迭代算法,在处理不完全数据中有重要应用。它的最大优点是实现简单;数值计算稳定;存储量小;特别是,每一次迭代能保证观察数据对数似然函数是单调不减的。
5. 研究计划与进展
研究计划:
首先查阅相关文献,学习相关知识及求解方法。
针对拟解决的问题,进行分阶段学习,每一阶段完成论文一部分问题的求解,并就所学内容做好归纳总结。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。