详情

原文传递基于强化学习的个性化自适应巡航控制策略研究

论文题名：	基于强化学习的个性化自适应巡航控制策略研究
关键词：	自适应巡航控制;数据采集;驾驶特性;跟车行为;强化学习
摘要：	自适应巡航控制（AdaptiveCruiseControl,ACC）系统是一种在传统的定速巡航控制基础上实现了自动维持安全车距的高级辅助驾驶系统（ADAS）。其主要功能是通过雷达等传感器测量前方车辆状态信息，控制车辆的驱动或制动装置以实现车速的自动调整，保证车辆以一个安全的车间距跟随前车行驶。目前普遍采用的基于规则的ACC系统跟车功能并没有考虑驾驶员驾驶特性的因素，导致固定的跟车加速度和距离无法适应不同类型的驾驶员，降低驾驶舒适性和驾驶员对ACC系统的接受度以及满意度。因此考虑驾驶员的驾驶特性，增加舒适性是未来ACC系统的重要研究方向，也是未来智能车辆关键技术之一。为此，本文开展基于强化学习的个性化自适应巡航控制策略研究，旨在将驾驶员个体的驾驶特性融入到ACC的决策中，使得ACC在跟车时实现拟人化，增加驾驶舒适性。　　主要研究内容与结果如下：　　（1）搭建了实车驾驶数据采集系统，考虑ACC典型工况设计数据采集工况，并在城市道路下采集驾驶数据。将采集到的数据进行数据预处理，最终提取出有效的跟驰片段数据，并对驾驶数据中典型特性进行了分析。　　（2）建立了传统ACC控制策略。分析了传统ACC控制策略架构，采取分层控制方法将ACC控制分为上层决策控制和下层执行控制。上层决策控制中，巡航模式采用P控制，跟车模式将模型预测算法作为决策算法。下层执行控制决策搭建了车辆纵向动力学模型，基于动力学模型实现对车辆加减速的控制，最后对传统ACC控制策略进行仿真验证。　　（3）在传统ACC控制框架下，利用强化学习算法设计个性化ACC控制策略。分析了驾驶员跟车中的决策过程，并将跟车过程近似为马尔可夫决策过程，在此基础上搭建了强化学习理论框架。基于驾驶员的跟车特点，利用强化学习理论下的NatureDeepQLearning算法实现相对距离和自车车速的分层控制，最后考虑ACC控制策略中跟随性、舒适性和安全性三个指标设计了相应的奖励函数。　　（4）在个性化ACC控制算法基础上，利用Dueling-DQN理论和PrioritizedReplayDQN分别对算法的网络结构和经验回放的训练过程进行优化，从而改善算法的性能和训练过程。此外，拟人化的奖励函数决定着个性化的ACC的决策方向，参考前文提出奖励函数，利用逆强化学习理论从已采集的数据中进行奖励函数的学习，建立基于数据的拟人化强化学习奖励函数，使得算法决策轨迹接近实际数据中驾驶员的决策轨迹。　　（5）搭建了MATLAB/Simulink-Carsim联合仿真平台，对训练好的个性化ACC控制策略进行仿真测试，将个性化ACC的跟车过程与传统ACC的跟车过程进行比对和定量分析。结果表明，个性化ACC控制策略在跟车中较传统ACC控制策略更能遵循驾驶员的习惯规律，更能够在决策中考虑驾驶员特性。同时，通过对二者其性能指标的分析最终表明，个性化ACC控制策略在提高驾驶舒适性等跟车性能方面较传统ACC更有优势。
作者：	陈重璞
专业：	车辆工程
导师：	郭建华
授予学位：	硕士
授予学位单位：	吉林大学
学位年度：	2022