1. 研究目的与意义
一、背景:近年来有关异常值的理论探讨一直是个热点问题,随着人们对统计数据关注度的不断提高,对统计数据的质量要求也越来越高。而 异常数据的出现会极大程度地降低数据的质量,使得相应数据分析结果发生显著变异,导致人们对问题做出不准确的判断。所谓异常值,是指一批数据中有部分数据与整体中其他数据相比存在明显不一致,也称离群值。异常值的出现可能是由于记录错误引起的,也可能是由于该数据不属于这个数据集。异常值一影响统计数据质量的一个非常重要的因素,一直以来,我国的统计界以及社会各界均对此问题给予很高的关注。
二、目的:
关注统计数据的误差问题,即所提供的统计数据与客观社会现象实际的数量特征之间的差距问题,在对已得的数据进行统计分析之前,通过构造有效实用的控制图对统计数据中的异常值进行探测与分析,并在基于r语言的基础上, 结合具体实例,如在经济金融方面,给出其在统计数据异常值探测中的应用,找出异常值。
2. 研究内容和预期目标
1、了解统计数据异常值检验的产生背景和意义;2、了解在运用r语言对异常值进行检验的方法和程序;
3、掌握r语言中对控制图在数据异常值检验的应用并找出异常值;
4、通过对异常值的检验找出异常值并进一步熟悉掌握r语言。
3. 研究的方法与步骤
研究方法:在基于r语言的基础上,构造控制图对异常值进行检验;步骤:
1、收集相关实例统计数据(如经济金融领域、气象数据等);
2、通过r语言控制图对数据进行分析检验;
4. 参考文献
1.王怀亮 统计数据异常值的识别及r语言实现 《电子技术》2012 (5) :6-72.王怀亮 回归诊断在统计数据异常值探测中的应用《对外经贸》 2011 (2) :118-119
3.薛毅,陈立萍. 统计建模与r软件[m]. 北京:清华大学出版社 2009.
4.汤银才. r语言与统计分析[m]. 北京:高等教育出版社 2008.
5. 计划与进度安排
1. 2022年3月5日-3月18日:完成开题报告并提交相关材料 ;2. 2022年3月19日-6月5日:毕业论文写作 ;
3. 2022年4月23日-5月6日:汇报课题进展情况,回答教师提问;
4. 2022年5月16日-5月22日:完成论文初稿;
