基于强化学习的机器人避障算法研究与实现开题报告

 2021-12-04 19:27:55

1. 研究目的与意义(文献综述)

1.1研究目的及意义

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

本设计采用了openai gym开发环境,在其环境中设置了固定的障碍物以供调试模型的避障能力。使用强化学习算法对模型进行训练,通过与环境的即时交互获得环境的状态信息,并通过反馈强化信号对所采用的动作进行评价,通过不断的试错和选择,从而学习到最优的策略,达到避障的目的。

智能体的某个行为策略改变了环境,就会获得环境给予的强化信号奖或惩,如果智能体(的某个行为策略导致环境对智能体正的奖赏值(reward),则智能体以后采取这个行为策略的趋势就会加强;反之,若某个行为策略导致了负的奖赏值,那么智能体此后采取这个动作的趋势就会减弱。整个状态过程可以用马尔科夫过程来描述,马尔科夫过程是一类随机过程。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

第1-3周:查阅相关文献资料,明确研究内容,了解研究所需理论基础。确定方案,完成开题报告。

第4-5周:熟悉掌握基本理论,完成英文资料的翻译,熟悉开发环境。

第6-9周:编程实现各算法,并进行仿真调试。

第10-12周:针对具体的实验数据,完成整个系统的仿真,实现功能;撰写论文初稿。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]chernikova, alesia. areself-driving cars secure? evasion attacks against deep neural networks forsteering angle prediction[c]. 2019 ieee symposium on security and privacyworkshops. 2019. 132-137

[2] smolyakov, m.v. self-driving carsteering angle prediction based on deep neural network an example of carndudacity simulator[c]. ieee 12th international conference on application ofinformation and communication technologies. 2018.

[3] mariusz bojarski, davidedel testa, daniel dworakowski, bernhard firner, beat flepp, prasoon goyal,lawrenced. jackel, mathew monfort, urs muller, jiakai zhang, xin zhang, jake zhao, andkarol zieba.end to end learning for self-driving cars, april 25 2016.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付