详情

原文传递基于深度强化学习的自动驾驶匝道汇入决策研究

论文题名：	基于深度强化学习的自动驾驶匝道汇入决策研究
关键词：	自动驾驶;驾驶决策;匝道汇入;强化学习
摘要：	随着自动驾驶技术的不断成熟，如何使自动驾驶车辆能够在复杂场景中安全稳定地行驶是目前需要解决的关键问题，入口匝道作为道路上常见和重要的路段，确保自动驾驶车辆能够在该路段中合理地行驶对于提升道路整体的安全性具有重要的作用。在完成自动驾驶匝道汇入的过程中，基于规则的方法往往会存在适用场景较为单一等问题，而深度强化学习方法则能够通过不断学习从而在复杂动态场景下具有更加优异的表现，因此本文基于深度强化学习方法对自动驾驶车辆完成匝道汇入过程中的决策行为进行了研究。具体研究内容如下：　　（1）分别基于深度Q网络算法、深度确定性策略梯度算法这两种强化学习算法来建立自动驾驶匝道汇入决策模型，在状态空间中包含了对自车和周围车辆运动状态的观测值；针对自动驾驶过程中需要满足的安全、高效、舒适等多优化目标，从安全性、效率性、舒适性方面对两种决策模型中的奖励函数进行了设计。然后使用SUMO仿真软件搭建了自动驾驶匝道汇入场景，对建立的两种匝道汇入决策模型进行了训练和验证分析，最后从自车完成匝道汇入过程中获得的总平均奖励值和稳定性、效率性、舒适性、现实意义等多方面对两种模型进行了综合对比和分析，结果表明基于深度确定性策略梯度算法建立的自动驾驶匝道汇入决策模型的综合性能更加优异，同时也更加具有现实意义。　　（2）通过建立智能驾驶员模型并对模型中的参数进行调整，从而对主道上周围车辆激进型、保守型两种不同的驾驶风格进行表征。根据不同驾驶风格的自车对行驶过程中的效率性、舒适性、安全距离等追求不一致的情况，通过对奖励函数中舒适性权值参数、效率性权值参数和期望安全距离等参数进行调整，从而建立了匝道上激进型、保守型两种不同驾驶风格的自动驾驶匝道汇入决策模型。对每种模型都在主道上不同驾驶风格周围车辆的场景下进行了模型的训练和验证，并对验证结果进行了对比分析。得出的结果包括当主道上为激进型驾驶风格的周围车辆时，两种不同驾驶风格的匝道汇入决策模型在交汇区域都会有更频繁的加速度变化和更高的速度，以寻找合适的汇入时机等。同时保守型驾驶风格的匝道汇入决策模型会有更低的平均绝对jerk值，表明保守型驾驶风格自车的加速度变化更小、舒适性更高。综合所有的结果来看，建立的两种不同驾驶风格的自动驾驶匝道汇入决策模型都能够实现自车对行驶目标的不同追求。　　（3）主道上不同的交通流密度可能会对自动驾驶车辆完成匝道汇入任务的表现产生影响，因此建立了考虑交通流密度的自动驾驶匝道汇入决策模型，并对模型进行了训练，然后在不同密度交通流下对自车完成匝道汇入任务的表现进行了验证和对比分析。结果包括在一定范围内随着交通流密度的不断降低，自车在整个行驶过程和交汇区域中的平均速度会逐渐提高、平均汇入时间会逐渐缩短，表明自车的行驶效率会逐渐提高等。
作者：	鲁子洋
专业：	车辆工程
导师：	胡宏宇
授予学位：	硕士
授予学位单位：	吉林大学
学位年度：	2023