论文题名: | 基于改进联邦学习的智能车辆避障算法研究 |
关键词: | 智能车辆避障算法;联邦强化学习;移动性感知;知识蒸馏 |
摘要: | 智能网联车(IntelligentConnectedVehicles,ICVs)作为一种新兴的智能交通范式有望成为未来社会万物互联的重要组成部分,而智能车辆避障是ICVs中保障车辆安全驾驶的一个典型场景。利用深度强化学习技术,智能车辆可以基于决策网络拟合最优车辆行为以实现自决策避障,然而单智能车辆在进行决策网络训练时存在数据与算力缺乏问题。联邦学习技术通过模型参数分享与聚合,打破了ICVs中的数据孤岛困境,实现了智能车辆之间的算力协作,但车辆移动性会直接影响联邦学习的模型性能。为此,本论文对移动节点场景下联邦学习的改进与基于联邦学习的智能车辆避障控制展开详细研究,针对车辆移动性对训练速度及表现的影响提出一种改进的联邦学习框架,并利用该框架训练智能车辆的避障控制决策网络以提高决策网络的训练速度和性能。论文的主要研究内容如下: 考虑到智能车辆移动性对通信质量与数据相关性的影响,以及复杂模型在聚合中带来的大量时间开销,本论文设计了一种改进的移动感知联邦强化学习(Mobility-awareFederatedReinforcementLearning,MFRL)框架。通过对节点移动性对通信质量和数据相关性影响进行数学建模,提出了移动感知的节点选择算法,该算法根据模型质量、通信质量以及数据相关性等因素选择联邦学习的用户节点,以加速联邦学习的训练速度并提高模型性能。同时,MFRL框架还结合了一种基于知识蒸馏的模型压缩方法,以降低联邦学习的通信开销与模型聚合时延。实验结果表明,MFRL可以有效加速决策网络的训练速度并提升决策网络的性能,且通过压缩得到的微决策网络能够有效降低模型聚合中的时间开销。 针对基于规则方法在智能车辆避障问题中存在的规则设计复杂与决策效果不稳定等缺点,本论文设计了一种基于MFRL的智能车辆控制方法。将智能车辆避障问题建模为一个无限状态马尔科夫决策过程,提出了一种基于深度确定性策略梯度(DeepDeterministicPolicyGradient,DDPG)的智能车辆避障算法,同时基于MFRL实现智能车辆避障决策网络的分布式协同训练。实验结果表明,DDPG模型能够指导智能车辆作出合理的智能车辆避障决策,而MFRL可以进一步提升决策网络的训练速度与模型性能。 |
作者: | 胡炳旭 |
专业: | 信息与通信工程 |
导师: | 黄晓燕 |
授予学位: | 硕士 |
授予学位单位: | 电子科技大学 |
学位年度: | 2023 |