文 献 综 述
引言:
通过查阅国内外有关线性回归、非线性回归和统计诊断的文献来了解统计模型的实际背景和他们之间的相互联系,并且了解这些模型的理论与国内外现状。以此获得有关线性回归、非线性回归和统计诊断的相关的预备知识,并且在遇到实际问题能够自己建立模型,从而得到统计分析的基本思路,并且对模型中的参数进行极大似然估计以及使用高斯—牛顿迭代法得到参数估计的近似解,以此为进一步的统计诊断提供依据。
研究背景:
在大多数统计诊断方法中,主要都是基于两个基本模型:数据删除模型与均值漂移模型,分析方法基本都是关于在一定分布下的异方差和相关性检验,主要就是对方差齐性的检验。另外也有许多检验方法,主要都是为了获得数据中的异常点(异常值),以此来诊断模型,发现数据集中的明显错误。除此之外还有关于二项回归模型的研究,二项回归模型属于广义线性回归模型的一种,在一些特殊情况下,即残差和因变量都服从二项分布,二项回归模型有着较好的应用,并且在这种情况下最大似然估计能够很好地解决参数的估计和假设的检验问题。
国内外现状:
在国内的相关文献中,对于模型中的因变量、自变量或双边变换的方法进行了讨论,而没有过多的阐述如何在众多变换方法中选择合适的变换方法,而这一点在国外的文献中有较多的讨论。另外,在许多模型的极大似然估计方法下,许多参数的估计值都无法准确的确定,只能通过近似方法来确定:高斯—牛顿迭代法。相对于国内来说,国外的理论知识更为扎实,而且,国外对于这些理论知识大多都能很好地运用于实际并且在运用过程中不断地发现问题,然后进行不断的更新理论或者提出新的方法解决问题,因此国外在这方面的学术发展相比国内要快得多。令我印象深刻的是在Box-Cox变换中的参数估计方法,由于求解变换中方法中的参数的极大似然估计通常比较复杂,Atkinson认为,估计的基本出发点就是对标准化的数据变换模型进行线性近似,从而提出了非常有实用价值的Atkinson估计,这明显是对于Box-Cox变换的一项重要理论,因为他有效而实用地解决了变换参数的估计值问题。
研究方法:
在本次问题的讨论中,首先要对线性回归模型的统计诊断方法进行讨论,尤其是相关参数的极大似然估计值,然后将线性模型推广到广义线性回归模型,并且了解广义线性回归模型中重要的二项回归的基本模型与参数估计方法。在了解了广义线性回归模型之后再研究非线性回归模型并且推广至广义非线性回归模型。这之后,结合二项回归在线性回归中的分析,在非线性回归中加入二项回归的方法来探索非线性二项回归模型的统计方法。除了一些模型之外,重要的是在这些模型的基础上,研究数据删除模型与均值漂移模型在这些模型上的应用,尤其是数据删除模型和均值漂移模型对于数据集的诊断方法。
首先,下载深圳市场大盘指数及典型个股历史数据,然后分析数据,以此对个股波动于大盘指数之间的关系建立随机设计样本点的回归模型,在随机设计的样本点中,找出与个股波动联系明显的因素,以此建立非线性二项回归模型来进行统计。首先要对模型进行方差齐性检验,如出现异方差则要进行数据变换或者其他方法处理。数据变化的方法有许多,主要采取Box-Cox变换,变换参数主要由Atkinson估计来确定估计值以此来确定变换。在进行数据变换后得到齐方差数据后,进行非线性二项回归建模,并且用高斯—牛顿迭代法来确定模型的参数,此处过程非常复杂,并且利用到许多方便计算的近似方法。在得到模型参数的估计值之后,就可以由一些统计方法来进行统计诊断。基于数据删除模型的统计方法就可以以广义Cook距离和似然距离等(在二项回归模型中主要采用三个统计量:)来比较删除前后估计量或统计量之间的差异。若删除的部分对模型有较大的影响,则广义Cook距离和似然距离就会很大,从而通过计算删除前后的广义Cook距离和似然距离,并且作图,就可以得到数据集中的数据对于模型的影响程度。除了数据删除模型(CDM)以外,还有均值漂移模型(MSOM),类似的,在非线性回归模型中,它们也是“等价的”。均值漂移模型主要是探究添加到模型中的均值增量是否显著为0来确定数据是否有漂移,若显著不为0,则有漂移,说明该点为异常点。在均值漂移模型的假设检验问题中,主要运用似然比统计量和Score统计量。似然比统计量是由产出差平方和RSS得到,而Score统计量则为渐进分布为卡方分布的统计量,计算较为繁琐。此外,可以利用方差加权扰动模型和因变量扰动模型来进行局部影响分析。在方差加权扰动模型或因变量扰动模型中,可以画出影响矩阵的对角元以及最大特征值的散点图来探索数据集中的强影响点。局部影响分析的结果大致上与数据删除模型或均值漂移模型类似,则得到的结果是较为令人满意的。
