详情

原文传递考虑多因素拟人自由换道决策方法研究

论文题名：	考虑多因素拟人自由换道决策方法研究
关键词：	自动驾驶;自由换道;强化学习;驾驶风格
摘要：	随着智能汽车研究快速发展，高速公路自动驾驶系统是当前可产业化的重要系统之一。提高高速公路自动驾驶系统自由换道的安全和效率是该系统能迅速应用的关键技术之一，是国内外学者研究的热点问题。　　当前自由换道决策多采用基于专家规则或基于强化学习的方法。基于专家规则的方法因考虑因素有限具有泛化能力低的问题，而基于强化学习的方法具有学习效率低、数据依赖强等问题。针对上述问题，本文提出一种强化学习与规则相结合的自由换道决策方法，研究了考虑驾驶员驾驶风格的基于DQN算法换道决策模型，以及考虑道路系数的自由换道安全限制规则，实现了考虑多因素拟人的自由换道决策。　　首先分析研究了自由换道影响因素。对自由换道过程进行分析，简化换道的场景，从安全与收益出发分析换道的影响因素，包括交通流、驾驶风格以及天气，并研究能够表征这些因素的特征量。　　其次研究了基于DQN与安全限制规则相结合的自由换道决策方法。依据DRL方法的理论基础，完成了深度Q网络结构的设计。然后分析设计状态空间、动作空间以及考虑驾驶风格的奖励函数：连续状态空间主要包括周围车辆相对速度和距离，本车车速和碰撞标志等；离散的动作空间包括左换道、右换道和车道保持，另外通过对比智能车所在的车道编号与可许车道编号，对目标车道采取一定限制，避免车辆驶入允许范围之外的车道，同时这种简单的规则限定也避免了模型低效地学习换道策略；设计的奖励函数包括高效性奖励、安全性奖励和舒适性奖励三部分，通过调整奖励函数，最终完成了拟人化的自由换道DQN模型设计与搭建。此外，设计了考虑不同天气的安全规则模型，主要是考虑在不同道路系数的路面上，智能车与目标车道前车和当前车道前车换道安全距离的不同。最后，完成了模型输入输出数据处理，在VTD/MatLab训练验证环境中训练DQN模型。　　最后在验证阶段，针对驾驶风格对自由换道的影响，并考虑对驾驶风格分类贡献率较高的特征，设计奖励函数中不同的参数来训练具有不同换道习惯的智能体。在不同交通流密度的环境中验证三种模型。结果表明不同驾驶风格的换道模型能够表现出对应的换道特点，与中立型和平稳型相比，激进型的换道频率更高、平均车速更快、换道时刻平均跟车距离更短，同时在各密度交通环境中三种驾驶风格换道模型也能完成换道行为。此外，针对当前换道模型对天气影响考虑不足，验证了考虑道路系数的安全换道规则。结果表明，考虑道路系数后，不同驾驶风格的智能车在恶劣天气下均会降低换道频率，减小事故风险。拟人化和多因素验证表明，通过改变模型的与驾驶风格强相关的训练参数，可以训练得到不同驾驶风格的决策模型，在智能车上可以实现换道决策拟人化设计而非单一的换道风格；通过考虑多种因素，可以提高模型在不同场景下的迁移能力，扩大模型适用范围；强化学习和规则限制的结合方法可以兼具二者的优势，在强化学习泛化能力的基础上利用专家知识提高安全性并降低学习复杂度，因为我们希望决策模型去学习不同的变道策略的时候能够尽可能的通过规则保证安全。
作者：	曹子坤
专业：	车辆工程
导师：	詹军
授予学位：	硕士
授予学位单位：	吉林大学
学位年度：	2023