当前位置: 首页> 学位论文 >详情
原文传递 基于领域泛化和近端策略优化的自动驾驶行为决策与轨迹规划研究
论文题名: 基于领域泛化和近端策略优化的自动驾驶行为决策与轨迹规划研究
关键词: 自动驾驶;行为决策;轨迹规划;领域泛化;深度学习;近端策略优化
摘要: 近年来,汽车数量日渐增多给道路交通安全带来了严峻挑战,而自动驾驶技术有助于缓解交通拥堵、改善现有交通环境、减少交通安全事故的发生,因此自动驾驶和智能驾驶已成为一个热门研究和应用领域。深度强化学习综合了深度学习与强化学习的优点,近年来被尝试用来解决自动驾驶领域的不同研究问题,但面对复杂多变的交通驾驶环境,深度强化学习仍存在环境探索效率低、前期训练速度慢、泛化能力差等缺点。针对深度强化学习算法的这些缺点,本文首先通过领域泛化方法对深度强化学习的高维图像输入进行泛化特征提取,并构造领域泛化状态空间,随后对深度强化学习的动作空间进行分层,先通过行为决策,再进行轨迹规划,降低空间的搜索难度,同时以模仿学习预训练方法提高前期训练速度,最终构建一个具有领域泛化能力的基于近端策略优化的自动驾驶决策规划控制模型,并在多种基准上测试模型的稳定性与泛化能力。本文的主要研究内容包含:
  (1)本文提出一种领域不变特征提取方法。目前传统的端到端自动驾驶算法往往要求训练数据与测试数据具有相同的分布,但在实际应用场景中很难满足,这就导致传统的自动驾驶算法在面对未曾见过的新环境时往往不能得到预期结果,本文提出一种基于领域不变特征提取方法,将交通场景中与驾驶无关的天气、光照等因素去除,并保留行人、车辆、道路等与驾驶密切相关的领域不变特征,使得本文提出的自动驾驶算法在面对全新的交通环境时仍然保持良好的性能。
  (2)本文提出了一种分层近端策略优化的自动驾驶控制理论模型,其在虚拟驾驶环境中不断学习和自我强化,以实现自动驾驶决策规划任务。首先,通过对近端策略优化算法的动作空间进行分层,并通过行为决策和轨迹规划的方法降低动作空间的搜索难度。然后,将基于模仿学习预训练的端到端深度学习网络权重用于近端策略优化的演员网络,解决强化学习的“冷启动”问题,从而加快模型收敛速度。
  (3)本文选择开源自动驾驶模拟器CARLA作为仿真平台,并在CORL2017和No.crash两个基准上将本文算法与其他算法进行比较,证明了本文算法的优越性。本文也基于CARLA仿真平台自行搭建了与真实城市对应的虚拟城市,并在不进行任何微调的情况下将在其他场景下训练好的本文算法模型直接应用于虚拟城市,实验证明本文提出的算法仍然具有优秀的泛化能力。
作者: 聂昭颖
专业: 控制科学与工程
导师: 刘春生
授予学位: 硕士
授予学位单位: 山东大学
学位年度: 2022
检索历史
应用推荐