论文题名: | 模仿学习理论及其在自主驾驶中的应用研究 |
关键词: | 逆向强化学习;生成对抗模仿学习;分层模仿学习;自主驾驶 |
摘要: | 模仿学习理论是人工智能的重要理论基础,其在自主驾驶等决策控制领域具有广阔的应用前景。本文在分析国内外强化学习、模仿学习及自主驾驶研究现状的基础上,深入研究了模仿学习的基础理论,并将扩展生成对抗模仿学习以及分层模仿学习应用到了自主驾驶的仿真实验中,具有重要的理论与现实意义。本文的主要研究内容如下: 首先,总结并归纳了模仿学习的基础理论,给出了模仿学习的基本理论框架马尔可夫决策过程,阐述了信息熵、散度等重要的信息论概念以及策略、值函数、置信域策略优化等强化学习方法。 其次,研究了模仿学习中重要的逆向强化学习算法理论及算法实现。系统阐述了基于线性规划的逆向强化学习算法、最大熵逆向强化学习算法和最大熵深度逆向强化学习算法的原理,并将上述三种算法应用于GridWorld仿真环境中,证实了逆向强化学习算法能够有效推断出内在奖惩机制。 再次,研究了生成对抗模仿学习算法及其扩展算法。引入生成对抗网络模型,将其与最大熵逆向强化学习深度融合,解决了显示求解奖励函数计算成本大、效率低的问题,同时结合最大互信息正则化方法和附加强化奖励机制,给出了扩展生成对抗模仿学习算法,并基于TORCS仿真平台实现了无人车在双模态专家策略下的超车自主驾驶模仿学习任务。 最后,研究了基于分层模仿学习的城市自主驾驶技术。给出了分层模仿学习的基本架构,具体阐释了教练无人车和学徒无人车模仿学习两个阶段的运行流程,通过CARLA仿真平台对其进行了仿真实验和算法评估,说明了分层模仿学习架构在城市交通道路下的自主驾驶任务具有显著优势。 |
作者: | 裴穆雷澜 |
专业: | 控制科学与工程 |
导师: | 王常虹 |
授予学位: | 硕士 |
授予学位单位: | 哈尔滨工业大学 |
学位年度: | 2021 |