强化学习中的线性值函数逼近器的设计及研究开题报告

 2022-05-02 22:16:58

1. 研究目的与意义

(1)背景:学习是人类具有的一种重要智能行为,而机器学习是一门研究怎样用计算机来模拟或实现人类学习活动的一门学科.机器学习分为三类他们分别是监督学习、无监督学习和强化学习.不同于监督学习和无监督学习的学习方式,强化学习是模拟人和高等哺乳动物的学习机制,强调在与环境的交互中试错与改进,其最大的特点是不需要系统模型即可实现无导师的在线学习.经过多年的发展,强化学习已经成为一类求解序贯优决策问题的有效方法,在运筹学、计算科学和自动控制等领域应用很广泛.强化学习可以用来指代一类问题,也可以用来指代解决这类问题的方法.强化学习方法的典型框架为:agent通过试错与环境进行交互,将每一时间步的延迟回报通过时间信用分配机制传递给过去动作序列中的某些动作,用值函数评价每个状态或状态动作对的好坏程度,最终通过值函数确定最优策略.值函数逼近器使用函数逼近器代替传统强化学习中的查表法来实现泛化以克服维数灾难.该方法中,逼近器的结构和参数选取直接决定了算法的效率.

(2)目的:强化学习方法通过反向传播延迟回报机制来解决时间信用分配问题,此学习方法比较费时,在学习初期需要较多时间步的探索后才能获取第一个有效奖赏,比如:mountaincar问题,只有达到目标状态的转移操作被赋予了一个 1的奖赏值,其余转移奖赏值都为0.

(3)意义:通过实践可以表明,强化学习的方法越来越多的用于在线学习控制、作业优化调度、游戏、路径规划等很多的领域,但是强化学习的研究和应用也面临一些困难,这些困难主要来源于本身的复杂性,此类问题具有以下3个特征:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

在过去的几年里,强化学习的研究主要集中在基于值函数估计的方法,但是基于值函数的强化学习方法具有3中缺陷:

(1)传统的值函数估计法,如q学习、sarsa学习,都是针对动作空间和离散状态问题的,如果采用查找表的方式来存储连续空间下的状态和动作值必然会导致维数灾难问题.

(2)基于值函数估计的方法易于寻找确定性的最优策略,但是很多的问最优策略往往都是随机的,尤其是在部分可观测马尔科夫的决策问题上.

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与步骤

方法:

(1)梯度下降法:又称最速下降法.函数j(a)在某点ak的梯度j(ak)是一个向量,其方向是j(a)增长最快的方向.显然,负梯度方向是j(a)减少最快的方向.在梯度下降法中,求某函数极大值时,沿着梯度方向走,可以最快达到极大点;反之,沿着负梯度方向走,则最快地达到极小点.

(2)最小二乘回归:在一定的样本集合下,以最小化目标函数估计值与真实值之差的平方和为目标的回归优化问题,以下所示的线性参数化q值函数逼近模型为例,该问题形式化描述为:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1][suttonrs,banto_ag.reinforcementlearning[m].cambridge:mitpress,1998.

[2]singhs.agentsandreinforcementlearning[m].sanmateo,ca,usa:millerfreemanpublishinc,1997.

[3]王珏,周志华,周傲英.机器学习及其应用[m].北京:清华大学出版社,2006.

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 计划与进度安排

(1)2022.2.1 ----2022.3.10查阅资料,撰写开题报告

(2)2022.3.11 ----2022.3.18 需求分析,熟悉开发工具

(3)2022.3.19 ----2022.3.31 概要设计

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版