论文题名: | 面向自动驾驶的自主决策方法研究 |
关键词: | 自动驾驶;自主决策;强化学习;奖励函数 |
摘要: | 随着人类科学技术的进步,自主决策成为新时代智能算法的研究热点。调查显示,94%的道路交通事故是由人为错误造成的,道路交通事故的发生会导致严重的城市拥堵问题。将自主决策技术应用到自动驾驶场景中能够极大的缓解城市的交通压力,同时稳定安全的自主决策技术能够有效的降低交通事故发生的概率。当前自动驾驶场景复杂多变,对自主决策模型的鲁棒性要求极高。针对该问题,本文提出基于强化学习的自主决策研究方法。与此同时,自动驾驶场景中自主决策模型的训练速度也是必不可少的优化指标。针对该问题,基于元学习的自主决策方法被证明可以有效的提升自主决策模型训练速度。基于此,本文分别从以下两个方面对面向自动驾驶场景下的自主决策方法进行了研究。 (1)本文结合强化学习能够通过与环境交互实现自我学习的特征,提出了基于强化学习的自主决策研究方法,解决了自动驾驶中连续动作空间的问题。首先,本文将自动驾驶视为马尔可夫决策问题,通过调整输入的CVAEs处理图像本身的观测值,融合了车身转向角等条件特征增加模型的鲁棒性和泛化能力。其次本文使用深度确定性策略算法(DeepDeterministicPolicyGradient,DDPG)实现自动驾驶场景下的自主决策算法模型设计。最后,通过设置奖励函数最大化旅行距离,在不考虑针对场景的条件反射的场景下,使目标车辆适应一个给定的导航目标。 (2)本文针对鲁棒性高的模型训练速度慢的问题,提出了一种基于元学习(Meta-SGD)的自主决策方法。首先,本文使用元学习的方法解决了自主决策模型在自动驾驶场景下训练前期的大量试错的缺点。其次,本文以端到端的方式学习优化器的所有成分,使自主决策方法在面对复杂的自动驾驶场景中能够具有更强大的自主决策能力。最后,本方法在考虑鲁棒性的同时,兼顾了模型训练速度的问题,进一步加快了模型自主决策的学习速率。 本文分别对基于强化学习的自主决策研究方法和基于元学习的自主决策研究方法进行了实验验证和分析。通过实验结果发现,本文所提出的自主决策方法能够在自动驾驶场景下具有良好的循迹能力并且在复杂的多场景下具有较好的决策能力。 |
作者: | 张震 |
专业: | 计算机技术 |
导师: | 冯光升;陈诗军 |
授予学位: | 硕士 |
授予学位单位: | 哈尔滨工程大学 |
学位年度: | 2022 |