论文题名: | 基于深度强化学习的车联网资源管理研究 |
关键词: | 车联网;资源分配;深度强化学习;功率控制 |
摘要: | 车联网通信是现代通信技术中的重要应用场景之一,也是智慧交通以及智慧城市不可或缺的一环,通过结合各种道路交通的参与主体,在保证道路交通安全,提升城市交通效率,优化驾驶体验等方面具有重要意义。然而车联网中同时存在多个拥有不同通信需求的用户,需要对其进行合理的资源分配来尽可能的满足不同服务质量(Quality-of-service,Qos)需求。但因其通信主体车辆自身的高速移动性所导致的信道状态信息多变,以及其移动性带来的车辆周边通信环境的复杂变化,致使其难以获得准确的全局信息,传统的基于中心化资源分配方法在车联网中具有较大的局限性。因此为了适应车联网的网络特点,设计一种合理的分布式资源分配方式具有重大意义。 本文研究了蜂窝车联网中同时存在V2V(Vehicle-to-Vehicle)和V2I(Vehicle-to-Infrastructure)两种不同通信链路,在共享资源池情况下通过子带选择以及功率控制来满足两种链路的通信需求。针对传统算法难以解决车联网环境的多变性以及服务需求的多样性进行合理的建模和资源分配的问题。本文以最大化V2I链路和速率的同时满足V2V链路的可靠性要求为优化目标,将上述问题建模为多智能体强化学习问题。利用具有自主决策能力的深度强化学习提出了一种多智能体深度强化学习(Multi-AgentReinforcementLearning,MARL)分布式资源管理策略-基于Multi-AgentDuelingDouble架构的DQN(MAD3QN)算法。将V2V链路发射端的车辆设置为智能体,通过反复与环境进行交互来选择需要复用的V2I链路以及控制自身的发射功率,解决了车联网中难以获得完整信道状态信息的问题。此外为了解决DQN中的过高Q值估计问题,引入双DQN网络分离决策与Q值估计过程,提升准确度。并通过Dueling架构,将Q值分解为优势函数和价值函数,以提取策略动作优势,从而加快收敛速度。针对现有研究缺乏考虑因功率量化带来的信息缺失导致的性能损失问题,本文引入了深度确定性策略梯度(DeepDeterministicPolicyGradient,DDPG)算法,将动作空间中的离散动作空间和连续动作空间进行分解。为了进一步提高算法性能以及鲁棒性,在DDPG算法上添加了延迟策略更新以及目标策略平滑化,并在Q值的更新上使用多步(Multi-step)更新的策略。提出一种高效的MAMD3QN-DDPG算法,采用D3QN进行子带选择以及联合DDPG进行功率控制。仿真结果表明,本文提出的MAD3QN算法和MAMD3QN-DDPG算法可以在保证车联网V2V链路可靠性的同时获得最大化V2I链路的和速率。 |
作者: | 侯彦成 |
专业: | 信息与通信工程 |
导师: | 赵国亮 |
授予学位: | 硕士 |
授予学位单位: | 内蒙古大学 |
学位年度: | 2023 |