1. 研究目的与意义
强化学习是一种重要的机器学习方法。强化学习通过感知环境状态信息来学习动态系统的最优策略,通过试错法不断与环境交互来改善自己的行为,并具有对环境的先验知识要求低的优点,是一种可以应用到实时环境中的在线学习方式。
强化学习(reinforcementlearning)rl,又称增强学习、再励学习,是一种实时、在线学习方法。强化学习是智能体在与动态环境的交互过程中,通过反复试错来学习适当的行为。它介于监督式学习(supervisedlearning)和无监督式(unsupervisedlearning)学习之间,是一种策略相关学习,通过与环境的即时交互来获得环境的状态信息,并通过反馈强化信号对所采取的行动进行评价,通过不断的试错和选择,从而学习到最优的策略。
强化学习把学习看作试探过程,agent选择一个动作a作用于环境,环境接收该动作后发生变化,同时产生一个强化信号(奖或罚)反馈给agent,agent再根据强化信号和环境的当前状态s再选择下一个动作,选择的原则是使受到正的报酬的概率增大。选择的动作不仅影响立即强化值而且还影响下一时刻的状态及最终强化值。强化学习的目的就是寻找一个最优策略,使得agent在运行中所获得的累计报酬值最大。
2. 研究内容和预期目标
强化学习问题是直接从交互中学习而实现目标的一种框架。学习器和决策器称为agent;与之交互、在agent之外的一切东西都称为环境(environment)。这些交互不断地进行着:agent选择动作,环境对这些动作作出响应,产生新的场景给agent;同时环境引起奖赏,一种agent试图随时间推移最大化的特殊的数字值。环境的完整说明定义了一个任务(task),即强化学习问题的一个实例。更具体地说,agent和环境在一个离散时间序列(t=0,1,2,3,)的每一步中都进行交互。在每个时间步t,agent都得到若干环境状态(state)的表示,其中s是所有可能状态的集合,在此基础上选择一个动作(action),其中是在状态上的可选动作的集合。一个时间步过后,该动作的结果是:agent得到一个数值奖赏(reward),并到达一个新的状态。
通过对q-learning算法的研究,完成对悬崖行走问题的分析,寻找其安全路径和最优路径;并利用q-learning算法求解最优值函数及最优策略,分析影响算法的相关原因。
3. 研究的方法与步骤
研究方法:
(1)理解并掌握强化学习的基本思想与基本方法;
(2)将悬崖问题建模为一个马尔可夫决策过程;
4. 参考文献
(1)suttonrs,bartoag.reinforcementlearning[m].cambridge,ma:mitpress,1998.
(2)tomm.mitchell.machinelearning[m].北京:机械工业出版社,2006.
(3)stanleyb.lippman,joseelajoie.c primer中文版(第四版)[m].北京:人民邮电出版社,2006.
5. 计划与进度安排
(1)2022.2.1 ----2022.3.10 查阅资料,撰写开题报告
(2)2022.3.11 ----2022.3.18 需求分析,熟悉开发工具
(3)2022.3.19 ----2022.3.31 概要设计
