强化学习中值迭代算法分析及其应用开题报告

 2022-05-02 22:17:00

1. 研究目的与意义

Ⅰ、背景:

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。和博弈论有密切的关系,也是多主体系统学习的常用方法。

Ⅱ、目的:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

研究的主要内容:

Ⅰ、如何表示状态空间和动作空间。

Ⅱ、如何选择建立信号以及如何通过学习来修正不同状态-动作对的值。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与步骤

方法与步骤

Ⅰ、网格世界是一个典型的有穷的马尔科夫决策环境,dp和强化学习的关键思想是用值函数去组织和构建好的策略。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1] sutton s. learning to predict by the methods of temporal difference [m]. machine learning. 1988, 3(1): 9-44.

[2] kaelbling l p, littman m l, moore a w. reinforcement learning: a survey[j]. journal of artificial intelligence research, 1996, 4:237-285.

[3] singh s. agents and reinforcement learning[m]. san mateo, ca, usa: miller freeman publish inc, 1997.

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 计划与进度安排

(1) 2022.2.1 ---- 2022.3.10 查阅资料, 撰写开题报告

(2) 2022.3.11 ---- 2022.3.18 需求分析,熟悉开发工具

(3) 2022.3.19 ---- 2022.3.31 概要设计

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版