

英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料
使用ARIMA模型预测监狱人口
Bin-Shan Lin, Doris Layton MacKenzie, and Thomas R. Gulledge
摘要:在这项研究中,运用一个时间序列模型预测路易斯安那的监狱人口,这个模型使用迭代Box-Jenkins建模的方法,估计和诊断检查。时间序列预测与回归模型和指数平滑的结果形成对比模型。结果表明,时间序列模型的优越性体现在有着更好的预测精度。相比实际数据,预测足以满足需要短期规划的矫正系统。
关键词:ARIMA模型;预测;监狱人口;过度拥挤预测;Box-Jenkins建模;时间序列。
- 引言
多年来,一些领域的预测精度已经大大提高改善(例如,美国人口,天气); 相比之下,监狱人口预测还处于起步阶段(MacKenzie和Tracy,1985)。 增加监狱人口,关于囚犯住房的法院裁决,以及减少拨款增加了对预测监狱人口的适当方法的需要。根据最近的一项调查,95.5%的美国惩教管辖区加强了他们的预测成果(Miller et al.,1981)。预测监狱人口可能是最困难的任务对于分析师来说。困难来自缺乏足够的数据,缺乏预测技术的长期经验或多样性的预测方法。 使用统计技术进行预测已被公认为非常重要的管理和预算工具。
预测通过提高预测未来重要变量的价值的准确性来降低决策中的风险,如校正人口。此外,已经发现准确的预测是至关重要的对于作出令人满意的决策。与任何预测技术相关的限制。 所有统计预测技术需要历史数据模式持续进入未来。 常识意味着预测精度应该随着预报函数时间范围的延长而减小。这个地方自从政治考虑以来对校正计划者有不寻常的要求当在规划新的矫正设施时规定较长的交货期的时候。本文提出的预测方法(或任何其他预测方法)不应该在信息真空中应用。
然而,预测必须构建,主观评估,并转化为计划和预算。在考虑数据的限制和不可量化的变量之后是有意义的,分析人员应该选择最好的可用的统计技术进行预测,由于监狱的人口数据是时间排序的,并且由于关于输入预测变量的数据是昂贵的,如果不是不可能获得的,单变量时间序列预测模型是适当的。
时间序列分析是统计实践中的一个快速增长零反映在最近的大量论文和会议上(McCleary和Hay,1980; Pandit和Wu,1983; Vandaele,1983),时间序列分析是有用的用于预测,以及在20世纪60年代开发的Box-Jenkins方法吸引越来越多的关注。预测者已经开始使用BoxJenkins时间序列模型作为管理决策中的工具。然而,很少有关于这些的发展的信息时间序列模型来预测监狱人口。这有点令人惊讶,因为一段时间以来已经知道单变量时间序列模型通常胜过设计用于(其他)的大型模型,长期预测(参见,例如,Naylor等人,1972; Nelson,1972; Gulledge et al.,1986)。 这是一篇关于Box-Jenkins时间序列模型和测试的开发的模型充分性预测管辖下的监狱人口的路易斯安那州公共安全和惩教部门的论文。
注释:
1路易斯安那州立大学实验统计部,路易斯安那州巴吞鲁日70803.
2刑事司法与实验统计学室,路易斯安那州立大学,巴吞鲁日,路易斯安那州70803.
3路易斯安那州立大学,巴吞鲁日,定量商业分析,路易斯安那70803.
4应该与谁通信.
- 用于预测的模型
至少有四次使用的预测方法用于调查预测美国的监狱人口(佛罗里达州ARIMA预测监狱人口模型部门)
这不是本文的意图,所以作出许多的准确性的一般陈述。由于文学规模庞大,所以感兴趣的读者直接参考Makridakis et al(1982)和马哈茂德(1984)作为一个出发点。
表一 四年里报告使用监狱人口预测的司法辖区的数量
总数不同,因为调查抽样了不同的司法辖区和所报告的司法管辖区多种预测方法。 资料来源:佛罗里达州罪犯康复部(1977),肯塔基司法部(1980),Miller等人 (1981)和美国通用会计办公室(1984年)。
罪犯康复,1977年;肯塔基州司法部,1980;Miller等人,1981;美国总会计办公室,1984)。如图所示表一,近年来的变化似乎在增加使用更复杂的模型。最大的变化发生在增加使用时间序列模型。因为监狱人口依赖许多不可预测的变量,例如汇率,失业率,犯罪率,逮捕率,逗留时间,没有一个预测模型可以满足预测的所有需求,也没有一个“完美”预测将在未来实现(Bowerman和OConnell,1979)。本文比较的预测是由单变量模型;也就是说,在开发仅预测当前和过去的值使用监狱人口。然而,检查的统计技术可以并且经常被用于更复杂的仿真模型中产生估计模型的某部分;例如,囚犯的人数可以在模拟模型中预测进入系统(例如,I M P A C T,刑事司法统计协会公司,1985年)。三个常用单变量预测方法是线性回归,指数平滑,和时间序列。这些中的每一个描述如下。
2.1线性回归
在简单线性回归中,两个变量之间的关系是表示为直线。 当预测监狱人口时,习惯上将“时间”作为自变量。 这个方法会延续从先前数据建立的直线的预测。通常做出的假设是:(i)之间存在线性关系监狱人口规模和时间,(ii)误差项具有零均值和常数方差,以及(iii)误差是不相关的和正态分布的。
线性回归的优点是它很容易实现并且价格便宜,可以作为补充方法快速,短期预测。然而,假设,不相关或时间序列数据的独立误差在大多数情况下是不适当的。通常,时间序列数据中的误差表现出串行相关;这样的错误术语被称为自相关。在这种情况下,置信区间并且基于t和F分布的假设的测试不再适当(Montgomery和Peck,1982)。直到最近这是最多的常用的预测监狱人口的方法(表一)。
另一种常用的方法是线性回归的变化--分段线法。当数据由两个时间表征时趋势,情况可以通过包括虚拟变量来建模每个趋势。问题可分为两个主要层次的并发症:(i)当知道哪些数据点位于哪个时间趋势上和(ii)当这是不知道的时候(Draper和Smith,1981)。后者可能是通过查看点的每个可能的划分获得的第一和第二行,评估每个分区的残差平方和,以及然后选择所有除法中最小数的平方和。
经常使用分段线方法的修改版本预测矫正人群。转折点从a数据图。趋势变化前的数据从中消除分析。在回归分析中仅使用最近的数据。因此,最终的预测是基于最近的监狱
人口趋势。分段线法提供了更好的分析的过去转折点,但它不能预测未来转折点(Fox,1978)。
2.2指数平滑
指数平滑技术利用加权平均的待预测的变量的观测值进行预测其中假定时间序列的级别没有改变时间(Bowerman和OConnell,1979)。权重呈指数下降使得更近的值接收比旧值更多的权重。这个方法易于准备和易于理解,需要最少的数据,并且不需要熟练的统计能力来更新。然而,指数平滑不足以预测监狱人口增长或下降的转折点(MacKenzie和Tracy,1985)。其主要缺点是它无法应付趋势和季节性模式数据。尽管它的精度低,但它被广泛用于中间和短期预测。这是因为使用了更精确的方法可能在成本方面不可行或不合理(ODonovan,1983)。
2.3时间序列分析
时间序列分析用于建模不独立的数据,因此连续观测之间的关系是重要的兴趣开发预测模型。
时间序列模型的主要优点如下。
(i)通过这种方法产生的短期预测通常更多准确性高于任何其他方法;即,预测是最小均方误差预测;
(ii)该技术允许广泛的可能的模型数据并提供了从该类中选择模型的策略最好代表数据;
(iii)使用所有可用信息,包括特性残差以及趋势和季节性,而模型是概念上优于其他传统型号。
时间序列模型的主要缺点是从业者经常有困难(i)理解的概念基础方法和(ii)感觉自信该技术正确(ODonovan,1983)。总之,与其他统计技术相比预测,时间序列模型被认为具有巨大的潜力准确的短期预测。以下部分描述了用于预测路易斯安那监狱的时间序列模型的开发人口。
3.数据源
用于本研究的数据取自路易斯安那州部门公共安全和惩罚(LDPSC)数据库,一个计算机化文件的囚犯记录。 用于时间序列模型的数据是从1975年1月起每月监禁的囚犯总数1983年12月(例如,108个数据点)。 囚犯报告说被每月监禁的人包括在LDPSC监护下被监禁的人和那些由于过度拥挤而被归类和在教区监狱里的人。因此,包括在这个数字是所有的那些囚犯将将会在州立监狱有足够的空间。
- 模型开发
使用监狱人口的时间序列模型Box-Jenkins方法和SCA统计软件包(Liu和Hudak,1985)。时间序列模型的发展需要三个阶段:(i)识别暂定模型,(ii)估计未知参数,以及(iii)测试暂时识别的模型的充分性。第三阶段涉及广泛的诊断检查。当最终候选时间序列时
模型已被开发,它被用于预测未来的时间值系列。
开发Box-Jenkins模型的第一步是检查1975年到路易斯安那州监狱人口的时间序列图1983。 1,随着时间的推移,平均值有明显的上升趋势。数据点似乎不随机散布在直线上
线似乎有长漂移,表明高正相关。事实上,监狱人口和时间之间的相关系数周期为0.98。因此,数据与时间高度相关。
图1. 1975年至1983年在路易斯安那州的监狱人口情况
表2最佳拟合时间序列的参数估计模型预测路易斯安那的监狱人口:
4.1识别
通过检验样本自相关函数(ACF)和样本部分自相关函数来确定IA初步模型(PACF)。将数据差分一次以获得平稳性。例子差异后的ACF迅速下降,在滞后10和滞后20之间。因此,假设差分系列是固定的。两者样本自相关函数和样本部分自相关函数向零倾斜。暂时地,ARIMA(1,1,1)模型确定。然而,ACF和PACF 12峰值间隔的峰值建议在模型中需要一个季节性因素,给出一个ARIMA(1,1,12)模型。检查了添加剂ARIMA(1,1,12)模型和乘法ARIMA(1,1,1)·(1,0,0)12模型。乘法模型被选为更好拟合的模型。此外,非零常数项包括在模型中,因为样本均值(3(= 75.6)的第一次差异监狱人口数据被发现是显着的不等于零[t(106)= 13.3,P lt;0.0001]。
4.2估计
第二步是估计暂定的模型中的未知参数。使用非线性最小二乘法作为参数估计使用SCA包。参数估计如下所示的表二。注意,这些估计满足平稳性和可逆性Box-Jenkins方法的要求(Box和Jenkins,1976)。
4.3诊断检查
开发模型的最后一步是诊断检查确定所选择的模型是否充分表示给定时间序列。
识别分析表明需要非零常数在模型中。当参数为时,该项不显著估计(表II)。删除这个词几乎消除了增加趋势的模型。因此,基于识别分析和知识的趋势,决定了常数项是必需的适当预测。
残差对时间的曲线表明,残差随时间增加;这表明残差不是实现具有恒定方差和时间序列的过程在方差上不是固定的。这个问题似乎与两个异常值有关这可以在残差图中看到。
当发现异常值时,必须做出决定(i)使用所有数据点,(ii)删除一个或两个异常值,或(iii)以将异常值更改为一些更合理的值。这个决定是这取决于所讨论的观察是否是真正的异常值在它不代表未来系列行为的意义上。如果是不代表未来的行为,观察应该纠正否则将导致次优预测。因此,有三个选择本研究中的数据。三个独立分析的结果是检查。首先,使用包括两个离群值的所有数据点。第二,一个低位异常值被删除,因为这个异常值是唯一的12月数据点在监狱人口时间序列数据中减少。这个是最后一个(第108个)数据点,并且假定最后一个数据点能对未来预测具有至关重要的影响。在第三次分析低的异常值被删除,高的异常值被平均值替代的相邻数据。第三种方法的残差图似乎是最好的适合。
此外,残差项进行全面的诊断检查。样本ACF和PACF表明残差是实现一个独立的过程。这通过Ljung和Box(1978)修改的Q统计量的无意义证实。还有,正常概率图显示没有偏离正态性。
- 与其他预测模型比较预测结果
SCA包中计算的预测是最小均值平方误差预测,使得对的预测是有条件的期望基于所有信息到时间t(Liu和Hudak,1985)。时间序列模型使用1975年至1983年的数据开发。监狱人口数据的更新允许对这一数字的预测与1984年1月至今的实际数据进行比较1985年4月。来自时间序列模型的预测也被对照与回归模型,分割线回归模型的结果,和模型(MacKenzie和Tracy,1985)中的一个exponent。的这些预测的结果列于表三。
这些模型是通过检查预测与1984年1月至1985年4月的监狱实际情况的偏差而得出的。用于比较预测的统计数据用于对比楷模。统计学方法为平均绝对误差(MAE)均方根误差(RMSE),
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[26734],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
