论文题名: | 基于强化学习的自动泊车算法研究 |
关键词: | 自动泊车;强化学习;DDPG;SAC |
摘要: | 近几年,随着汽车工业的迅速发展,“新四化”的浪潮席卷整个汽车行业。“智能化”作为“新四化”的关键部分,自然成为了当前的研究热点。自动泊车技术是车辆智能化的研究方向之一,其主要作用是在驾驶员进行泊车的过程中对驾驶行为进行辅助或者代替驾驶员进行泊车,使驾驶员避免因为车位狭小或者泊车环境复杂而难以停车。在随着汽车保有量逐年增加而导致的泊车环境变得愈发复杂的大环境下,自动泊车算法也逐渐成为企业以及高校的研究重点之一。 首先,本文对当前国内外的自动泊车产品化以及自动泊车控制策略的研究现状进行了阐述。基于当前自动泊车的控制策略,选择将强化学习与自动泊车的控制策略进行结合的自动泊车算法作为本文的主要研究目标。为了量化在训练以及测试中对于车辆位置以及姿态的描述,本文选用的泊车坐标系将简化的高斯坐标系与传统的车辆坐标系相结合。本文基于阿克曼转向原理对车辆模型进行了简化,建立车辆泊车运动学模型。使用建立的泊车运动学模型对最小转弯半径进行了计算,可以为后文停车场的布置限定条件。 其次,本文从智能体、动作、环境、观测与奖励四方面对强化学习的基本理论进行了介绍,又从模型以及学习准则方面对于深度学习的基本理论进行了介绍。由于自动泊车的动作空间为连续值,所以本文选择了DDPG以及SAC作为本文的自动泊车算法。为了使对于智能体的描述更加准确,本文选择了车辆实时的横纵坐标、车辆实时的速度、车辆的航向角作为强化学习要素中的车辆状态。基于车辆在自动泊车中的动作,将车辆的前轮转向角以及车辆的加减速定义为强化学习要素中的车辆动作空间。从安全性、停入泊位的姿态、舒适性三个角度考虑定义了强化学习要素中的奖励函数。 最后,本文对基于OpenAIGym搭建的highway_env进行改进,使之满足自动泊车的仿真需求。然后对环境以及车辆的特性进行了定义并对数据收集的方法进行简要介绍。为了方便对于训练以及测试过程进行评价,本文定义了训练的评价指标即总累计奖励和成功率,也定义了测试的评价指标即泊车轨迹、车辆的速度变化、车辆的加速度变化、车辆的前轮转角变化。本文的训练采用了循序渐进的训练方法,首先在简单场景进行训练,然后将训练好的智能体继承到后续的训练中。在完成智能体的训练后,将智能体置于搭建的自动泊车仿真驾驶模拟器中进行测试,再根据前面定义的评价指标对测试效果进行评价,测试结果表明DDPG以及SAC的智能体均可以完成泊车,验证了自动泊车控制策略的有效性。 |
作者: | 作张航 |
专业: | 车辆工程 |
导师: | 张素民 |
授予学位: | 硕士 |
授予学位单位: | 吉林大学 |
学位年度: | 2022 |