论文题名: | 基于责任敏感安全模型的自动驾驶决策研究 |
关键词: | 自动驾驶;深度强化学习算法;责任敏感安全模型;行车安全 |
摘要: | 当前,安全的自动驾驶已成为未来趋势。对于自动驾驶车的决策来说,最重要的是保证车辆的安全性,其次才需要考虑车辆的通行效率等其他因素。车辆的安全性是自动驾驶模型可信任的基础。而深度强化学习不可解释和缺乏安全的特性阻碍了其在自动驾驶领域进一步应用。如何建立一个更加安全的自动驾驶模型成为关键性问题。因此,本文针对深度强化学习在单车和多车协同场景下如何建立更安全的模型进行了研究,具体内容包括以下两个方面: 第一,针对强化学习无预知危险能力,安全性不足以及初始策略差,需要无意义试错的问题。本文提出了使用责任敏感安全模型的安全约束方法,通过责任敏感安全模型分离车辆的潜在危险动作集合和安全动作集合,使用深度强化学习算法在责任敏感安全模型的监督下进行安全决策,实现了更加安全的自动驾驶决策模型,同时,减少了初始阶段无意义地试错。进一步的,使用参数共享的方法将模型拓展到多车系统中,实现了多智能车的决策。 第二,针对多智能体强化学习无法解决联合动作空间维度爆炸的问题,本文采用了基于平均场的多智能体学习算法,通过平均场理论将自身车辆的邻域车辆等价成一个虚拟车辆,将自身车辆与邻域车辆的交互转化为自身车辆与虚拟车辆的交互,解决了联合动作空间维度爆炸的问题。进一步地,使用责任敏感安全模型结合平均场多智能体学习算法,对系统中的每辆车使用RSS安全监督器进行安全约束,提高系统的安全性和效率。 最后,本文在高速路场景下,针对换道问题对提出的算法进行实验与验证。实验结果表明,基于责任敏感安全模型的深度强化学习在模型的安全性约束下进行决策,最终能够学习到更安全、高效的策略。而在大规模数量的多车协同场景下,平均场多车协同算法通过平均场简化车辆之间的交互,能够在其他多智能体算法无法使用时依然具有良好的效果。进一步地,责任敏感安全模型结合平均场多车协同算法通过提升个体的安全性和效率,进而提高了系统的整体收益和安全性,提高了大规模车辆协同场景下系统的安全性能。 |
作者: | 万月鹏 |
专业: | 计算机技术 |
导师: | 谭国真 |
授予学位: | 硕士 |
授予学位单位: | 大连理工大学 |
学位年度: | 2021 |