基于相似性的金融时间序列分析与预测方法外文翻译资料

 2022-11-06 11:11

英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料


基于相似性的金融时间序列分析与预测方法

摘要:金融时间序列分析已经吸引了数年的研究兴趣,许多作品提出了进行经济系列预测,但是研究出一种能够应对市场混乱性的一般模式仍然是一个艰巨的任务。人工智能方法如人工神经网络和支持向量机成为有前途的替代方案,但它们隐藏了处理语义,限制了结果解释。 此外,现有解决方案的主要缺点之一是它们通常不易被用作新的分析工具的基础。本文提出了一种基于数据库驱动的系列模式之间的相似性来进行金融时间序列预测的新方法。我们提出一种基于与实例的增强型学习分类器相关联的视觉特征的新特征提取器来预测股票行为,从而改善人类分析师对结果的理解和验证。 该分析通过扩展SQL指令进行定义,并通过快速和可扩展的引擎执行,这使得我们的解决方案足以为处理大型时间序列数据集的新应用程序提供数据分析支持。我们还对从不同市场份额获得的数据进行实验。实现的结果表明,我们的方法在准确性,运行时间和可扩展性方面优于现有方法。

关键词:金融时间序列,时间序列预测,相似度检索,分类器方法

1 引言

基于实时交易的股票市场是当代资本主义金融体系的一个新的重要组成部分。它允许公司获得投资,根据合作伙伴的意见做出战略决策,并通过世界各地的投资者在全球范围内扩大其活动。近年来,证券交易所市场交易的股票数量大幅增长[12],预期未来将呈现更快的增长态势。这种情况促使许多专家利用观察股票过去的行为以及财务指标,来帮助避免公司内的不稳定期,甚至更好地预测其在不久的将来的行为,允许他们向投资者提供对于可能出现的风险的建议。股票市场产生大量关于公司股份的数据,持续的数据流是历史价格和公司价值变化的一部分。根据许多作者[8,11],尽管由于股市“混乱”的性质,准确的预测非常困难,但是有可能使用这些数据来预测交易的良好机会并将其用于投资, 这取决于外部事件,如政府行为,公司危机,自然灾害等诸多因素。 可以发现,在过去几十年里,不考虑外部事件的经济时间序列建模的几种尝试,仅仅分析了时间序列长期和短期历史的性质。

本文的目的是根据相似性概念,识别有助于预测未来可能在最短时间内移动价格的信号。 为此,我们提出了一种新的基于内容的预测方法,根据股票市场时间序列中存在的固有信息,从金融时间序列中获取相关特征,并且能够根据相似度创建分类模型,并采用公制访问方法 加快过程。我们提出了一个新的特征提取器,用于金融时间序列,其中使用用户定义的窗口对该序列进行分段,并提取分析人员视觉直观的内在特征。通过基于系列片段之间的不相似性的实以实例为基础的学习分类器来完成预测。我们的方法使我们能够准确回答以下问题:“对于某公司Y股,周一,周二,周三,周四的价值已知,股票市场在周五开市,公司Y股价值为X,我们应该投资预期股份增长超过1% 吗?”,在这里,我们提出使用我们的方法通过IBk分类器来执行基于最近邻操作的分类,以决定是否值得投资Y,为了评估我们的方法,我们使用两个实际的金融时间序列数据集来比较准确性和我们的方法与ARIMA及ANN-MLP方法的速度。通过Wilcoxon离散测试,我们以高度的信心表明,我们的方法比其他方法更有效,并且效率更高。

本文的其余部分结构如下:第2部分综述相关工作文献,并提供必要的背景,以遵循本文; 第3部分描述了所提出的方法;第4部分展示我们的方法与其他相关方法的实验结果的比较;第5部分给出结论。

2 研究背景和研究现状

2.1金融时间序列分析与预测方法

在股票市场分析中,股票定价的行为通常由离散时间序列描述,其中序列的每个项是关于价格变动的一组属性。时间序列的正式定义如下:

定义1(时间序列)。 时间序列是一组观测值xt,每个观测值是在指定时间t的记录。

时间序列是由多个数据项组成的复杂数据类型,可以用几种方式表示。假定每个观察xt是某个随机变量Xt的值,则时间序列就是随机过程的特定实现 {xt} T1,是在适当的概率空间上定义的随机变量{Xt}infin;-infin;的族。使用该表示并遵循由Wold分解定理给出的一组条件,也可以将时间序列表示为不相关随机变量序列的线性组合[13]。

时间序列作为单变量线性随机过程在于它是自回归模型(AR)和移动平均模型(MA)的发展基础,而这两种模型同属于的自回归综合移动平均(ARIMA)模型已经成为时间序列预测最流行的方法之一。 ARIMA模型利用时间序列的弱静态和非平稳特性,提出整合自动回归和移动平均值,并提供了确定序列微观层面观察到的季节变化的方法。它是基于三个参数:差异滞后(自回归项),差异顺序项和预测误差的滞后(移动平均项)。使用ARIMA预测经济时间序列的一个重要点是对于决定模型的参数的正确选择。ARIMA已被用于评估有关金融时间序列的广泛问题,如货币兑换和股票市场上的股票行为。当数据中存在非线性时,线性随机模型不能预测序列中的利益方面。建立股价行为的非线性方法包括自回归条件异方差(ARCH)方法及其估计波动率的非常数值的相关变形,基于隐马尔可夫链(HMM)的模型,以及类似物的方法。这些模型有一些缺点,如缺乏HMM技术的可扩展性,以及类似物处理长时间和高维度系列的限制

基于人工智能方法的软计算方法提出了预测时间序列结果的新方法,这些方法通常旨在利用给出对汇总数据的解释的分类器来预测趋势。在这些方法中,人造神经网络(ANN)已经成为近期关于金融市场的最受欢迎的工具之一。ANN的数字性质避免了符号操纵技术面临的数据转换问题,并且不需要输入数据的任何数据分配假设。此外,ANN已经成功地结合了传统的统计方法,产生了相应的改进。 然而,ANN方法需要较长的训练时间。 时间序列预测的其他广泛采用的软计算方法是支持向量机(SVM)。 金融系列预测中有几项工作采用支持向量机和支持向量回归, 然而,ANN和SVM的固有“黑箱”处理并不能为分析人员提供直观的线索。

各种类别的工作都旨在根据当前的序列与过去的序列进行相似比对,进而来执行金融时间序列预测。 这包括基于案例推理(CBR)的方法,即通过采用类似问题的解决方案解决新问题,以及由复杂数据相似性搜索和分类指导的方法。这些方法需要提取相关的时间序列特征,作为原始序列数据的标志,并且定义足够的度量来计算这些标志之间的相似性。这些标志必须被描述为可以被市场分析人员理解的特征,以便更清晰地解读并提高他/她对系统解决方案的理解。我们在本文中提出的解决方案遵循复杂的数据相似性搜索和分类方法。我们的工作与现有的工作不同,因为它被设计为一个集成到SQL兼容引擎的以数据库为中心的解决方案,并且基于市场分析师惯常使用的数据的视觉解释来集中金融时间序列相似性。因此,我们的建议不仅可以用于执行市场预测,如实验部分所示,而且还提供一致和可扩展的基元来开发高级分析工具。 以下部分介绍了我们工作中的主要概念。

2.2相似检索和基于实例的学习分类

复杂数据,如多媒体数据和时间序列,包含丰富的信息,需要专门的查询操作来提供有效的检索。在这种情况下,相似性查询是最广泛使用的操作之一。相似性查询检索满足关于一个或多个查询元素的给定相似性标准的存储元素。复杂数据元素将原始数据在查询执行中的内在信息提取到代替的特征向量中。相似度评估通常依赖于量化两个元素在特征空间中的距离函数。距离越小它们就越相似。最有趣的是可以将度量空间定义为度量空间的距离函数,可以使用称为度量访问方法(MAM)的索引结构来加速查询执行。MAM采用基本度量的属性来修剪元素,特别是三角不等式。一个例子是许多系统使用的Slim-Tree,能够执行比使用顺序扫描快两百倍的相似性查询。文献中有几个指标,闵可夫斯基函数(Lp)是相似度检索系统中最广泛使用的。

相似性查询的主要类型是范围查询(Rq)和最近邻查询(k-NNq)。范围查询集中于检索与查询元素距离小于给定的不相似性阈值的元素,而k最近邻查询检索的是与阈值无关的相似元素的数量。在分析金融时间序列的许多情况下,这些查询很有用。 例如,股票市场决策支持工具中的典型查询是:“查找经济时间序列中的3个星期,相对于给定的一组公司,其行为与当前行为最相似的行为。有些系统支持相似性查询,一个例子是SIREN(相似度检索引擎),它是一个在商业DBMS上实现刀片的原型,用于解释包括相似性查询运算符的扩展SQL语法。

相似度也可用于时间序列预测。一般想法是基于以前类似情况的行为提供预测,假设具有类似行为的情况具有相似的结果,被记录在历史序列的任何部分,该过程通常依赖于基于实例的学习(IBL)分类器,该分类器是从k-NN查询导出的分类器。最简单的IBL算法是IB1算法。IB1算法在概念描述中将目标元素的类别设置为其最邻近的类别,使用欧几里德空间距离来度量实例之间的不相似性并在特征向量中采用简单的容忍缺失值的策略。IB1的变形包括与IB1相同的IB2算法,除了它仅保存错误分类的实例,而IB3采用“等待和查看”方法来确定预期哪些保存的实例对未来的分类有帮助。基于实例的学习分类器有几个优点:首先,他们的方法很简单,并且遵循基于自然经验的人类推理,这允许以符合分析师直觉的方式支持严格的分析;IBL算法也是相对强大的,因为它们容忍噪声和不相关的属性,并且它们可以表示概率和重叠概念; 最后,由于IBL分类是基于k-NN查询的,因此可以在时间序列分析和预测框架中与其他基于内容的检索操作进行均匀集成,这是本文的重点

2.3分类有效性的统计测量

当需要比较两个分类器的成功率时,为了对于给定的应用定义一个最佳的选择,一个很好的选择是使用统计假设检验,它可以直观的比较每种方法报告的分类成功率之间的差异。 这是Wilcoxon提出的假设检验的主要思想。Wilcoxon的签名秩检验是一个非参数化的替代方案,可以处理离散变量。 在本文的上下文中,每个数据集的两个分类器的性能的每个差异,忽略符号,在列表中接收一个数字或“等级”。它可以写成两个假设:关于分类性能的分类器A等于B的零假设H0以及说明分类器B优于A的假设H1。测试如下:令di是测试数据集中n个元素的第i个分类器B和分类器A的性能分数之间的差异。 令R 是B的表现优于A的行列之和,并且R - 是相反发生的等级的总和,由以下等式定义。

根据di和ties(di = 0)的差的绝对值进行排名,可知R 的占一半,R - 占一半。 令T为和的小值,T = min {R ,R-}。大多数关于统计数据的书籍都包含一个表格,其中T为t的精确临界值,最多可达25个。 然而,如等式1所示,Wilcoxon的方法可以通过标准正态分布来近似。固定置信度alpha;,z值可以方便地在一个表中进行z值的检查。 这使得结论与接受或拒绝零假设无关。

3 拟议方法

我们在本文中提出的方法将相似搜索和分类技术集成在一个通用框架中,通过高效的数据库驱动架构提供金融时间序列分析和预测。我们的架构的主要组成部分是:金融时间序列特征提取器;距离函数;相似搜索的索引结构;基于实例的分类器;以及用于最终用户应用程序连接的DBMS之上的扩展SQL接口。这样可以有效地回答几个问题,例如:

- 连续两个月通常收入大于3%的公司是什么?

- 找到历史系列中与当前系列最相似的五周。

- 我们希望得到3%的利润,那么是否应该在2013年8月份购买Y公司的股票并在2013年9月份出售?

利用现有的架构提供的不同的计算技术就可以回答这些问题。第一个问题是使用由底层DBMS本机提供的常规查询,而第二个问题在金融时间序列中使用相似性搜索引擎,而第三个依赖引擎的基于实例的分类算法。

图1 金融时间序列分析和预测过程

我们的方法遵循图1所示的过程。过程的每一步都会自动进行,这不仅避免了人的主体性,而且提供了一种可解释的技术来确定每个分类或分析目标的最佳组合。

第一步是时间序列存储。时间序列在我们的方法中被表示为含有每个观测元组的表格。因此,可以根据应用的要求存储几个不同的序列。

第二步是特征提取。该过程由两部分组成:第一部分是根据用户定义的窗口将时间序列分割成碎片。窗口大小(即记录观测数)以及观察的粒度可以变化,因为它们是应用程序相关的。通过DBMS聚合函数查询,用户可以手动完成观察的粒度,而窗口大小是提供给特征提取器的参数。随后的时间序列片段可以重叠,因为该特征对于一些应用是有用的。该行为由提供给提取器的另一个参数控制,称为窗口偏移量,它表示算法从当前片段开始向下一个片段开始的观察次数。每个片段自动保存为由系统控制的辅助表中的元组,将片段观察转换为列值。 特征提取过程的第二部分是提取片段的固有特征。所得到的特征向量作为附加列存储在辅助表中。

第三步是相似性搜索。 这个步骤允许使用不同的距离函数,如曼哈顿,欧几里得和切比可夫貂皮函数(第2.2节)来构建几种类型的相似性查询,并通过公制访问方法执行查询。这些功能由SIREN提供,其中我们实施了时间序列分析和预测方法。

最后一步是提供该方法的预测能力的分类过程。可以使用IBk算法(IB1变体,其分类被分析为k个最近邻),而其他基于实例的学习分类器可以很容易地被包含。通过SQL用户定义,我们的方法提供的每个新功能都通过SQL用户定义的函数和扩展SQL指令被包含在SIREN中。 因此,连接到SIREN的任何应用程序都可以从时间序列分析和预测中获益,从而构建金融决策支持应用程序。

3.1股票市场时间序列的新特征提取器

相似性评估的成功与提取的表示数据的内在的特征直接相关。因此,特征越准确,目标和类似实例之间的距离越接近,分类越好。在本节中,我们提出一个新的特征提取器,旨在分析和预测股票在股票市场上的行为。该提取器在研究一段时间内(通常为一天)的股票价格变动之间的关系方面具有一定优势。为了达到直观和可理解的要求,这个提取器是基于

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[139707],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。