深度离策略强化学习算法研究开题报告

 2022-06-04 23:02:13

1. 研究目的与意义

机器学习,是一种能构建自我的技术。从远古至今,从打磨石头到生产机器,无论这些工具是手工完成的,还是大批量生产的,人类就一直在设计工具。学习算法本身也属于工具,不同于一般工具的地方是,它们可以被用来设计工具。毕加索曾说:“计算机毫无用处,它们只能给你提供答案。”计算机没有创造性,它们只能做你让它们做的事。如果要让计算机做的事涉及创造性,那我们就要用到机器学习。学习算法就是把数据变成算法,它们掌握的数据越多,算法也就越精准。而机器学习的核心作用就是预测:预测我们想要什么,预测我们行为的结果,预测如何能实现我们的目标,预测世界将如何改变。

根据麦肯锡全球研究院估计,截止2018年,仅美国就需要再培养14万~19万机器学习专家才够用,另外还需要150万有数据头脑的经理。机器学习的应用爆发得如此突然,连教育都跟不上其步伐。又随着在棋类领域频频战胜人类的alphago出现在人们的视野,其学习算法——深度强化学习方法也成为如今机器学习中较为热门的研究方向。

深度学习从研究大脑如何学习发展而来,它依靠大量的样本数据训练出含有多层网络结构、可以端到端输出的人工神经网络。强化学习从动物心理学发展而来主要涉及agent、环境、动作、奖赏、策略这个几个部分,agent在与环境不断交互中学习如何将场景映射到动作,以获得最大数值奖赏信号。而离策略强化学习方法是当前强化学习领域的研究重点,简单地来说,离策略强化学习中agent选择动作所依据的策略是和所需评估的策略是不同的,而在同策略强化学习则是相同的。相对同策略强化学习方法,离策略强化学习方法具有更优的收敛特性。本课题主要是将深度学习思想与离策略强化学习相结合,进一步提高算法性能。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

本课题以深度强化学习方法DQN和离策强化学习方法Ture online TD为基础,研究一种深度离策略强化学习方法。

研究内容:

(1) 了解DQN算法的框架;

(2) 深入了解离策略强化学习方法的原理;

(3) 将离策略强化学习算法与DQN算法结合,提高算法性能。

预期目标:

(1) 掌握深度学习和强化学习的基本理论;

(2) 实现系统设计;

(3) 提交1篇符合规范的毕业设计论文;

(4) 翻译1篇与毕业设计题目相关英文资料;

(5) 源代码一份。

3. 研究的方法与步骤

  1. 了解dqn算法的框架;

  2. 深入了解离策略强化学习方法的原理;

    剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

    4. 参考文献

    1. seijen h v, sutton r s. true online td(λ)[c]//in:proceedings of the 31st international conference on international conference on machine learning, beijing, 2014.

    2. modayil j, white a, sutton r s. multi-timescale nexting in a reinforcement learning robot[j]. adaptive behavior, 2014, 22(2):146–160.

    3. mnih v, kavukcuoglu k, silver d, et al. human-level control through deep reinforcement learning[j]. nature, 2015, 518(7540):529-533.

      剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

      5. 计划与进度安排

      1. 2022.1.5 --- 2022.3.15 接受毕业设计任务,查阅资料并完成开题报告;
      2. 2022.3.15 --- 2022.3.22 选择开发工具,并配置其环境;
      3. 2022.3.22 --- 2022.4.5 完成软件需求分析和概要设计;
      4. 2022.4.5 --- 2022.4.12 完成软件详细设计;
      5. 2022.4.12 --- 2022.5.10 编写和调试程序源代码,组织数据加以测试;
      6. 2022.5.10 --- 2022.5.24 整理文挡,并翻译1篇相关的外文资料;
      7. 2022.5.24 --- 2022.6.5 撰写毕业设计论文,准备答辩资料。

      剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版