基于迁移样本的带权离策强化学习方法研究开题报告

 2022-02-13 18:17:42

1. 研究目的与意义

机器学习,是一种能构建自我的技术。从远古至今,从打磨石头到生产机器,无论这些工具是手工完成的,还是大批量生产的,人类就一直在设计工具。学习算法本身也属于工具,不同于一般工具的地方是,它们可以被用来设计工具。毕加索曾说:“计算机毫无用处,它们只能给你提供答案。”计算机没有创造性,它们只能做你让它们做的事。如果要让计算机做的事涉及创造性,那我们就要用到机器学习。学习算法就是把数据变成算法,它们掌握的数据越多,算法也就越精准。而机器学习的核心作用就是预测:预测我们想要什么,预测我们行为的结果,预测如何能实现我们的目标,预测世界将如何改变。

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法。在运筹学和控制理论研究的语境下,强化学习被称作“近似动态规划”(approximate dynamic programming,ADP)。在最优控制理论中也有研究这个问题,虽然大部分的研究是关于最优解的存在和特性,并非是学习或者近似方面。在经济学和博弈论中,强化学习被用来解释在有限理性的条件下如何出现平衡。

本课题是以强化学习中的离策略评估问题为基础,配合由重要性采样和学习模型构成的双鲁棒性(DR)估计器,通过最小化估计器的方差来学习模型,并应用于经典问题。将迁移学习与强化学习结合,更好的利用已有资源,大大提高了学习效率以及扩大了适用范围。

2. 研究内容和预期目标

本设计主要是研究一种带权离策强化学习方法。

主要内容:

(1) 先分别研究基于样本的迁移学习和强化学习中的离策略算法;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与步骤

(1)了解迁移学习基本原理;

(2)深入了解强化学习中fifted q-iteration;

(3)利用离策略评估问题和重要性采样改进fqi,提高算法性能;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1] bang h, robins j. doubly robust estimation in missing data and causalinference models[j]. biometrics, 2005, 61(8): 962- 972

[2] bottou l, peters j, charles d, chickering d m, portugaly e, ray d, simardp, snelson e. counterfactual reasoning and learning systems: the example ofcomputational advertising[j]. jmlr, 2013, 14(4): 3207- 3260

[3] cao w, tsiatis a, davidian m. improving efficiency and robustness of thedoubly robust estimator for a population mean with incomplete data[j].biometrika, 2009, 96(8): 723- 734

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 计划与进度安排

(1) 2022年12月23日 — 2022年1月30日

接受毕业设计任务,查阅资料并完成开题报告;

(2) 2022年2月1日 — 2022年2月8日

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版