摘要: |
为提升不同网联范围下智能网联车(Intelligent Connected Vehicles,ICV)的换道效率,结合深度强化学习和分子动力学理论,提出一种融合掩码机制和注意力机制的双深度Q网络(Mask-Attention-DDQN,MAQ)换道决策模型。首先,在SUMO(Simulation of Urban Mobility)仿真环境中采集网联范围内ICV及人工驾驶车辆(Human Drive Vehicles,HDV)的行驶状态信息。其次,搭建MAQ模型,采用掩码机制和注意力机制方法,实现固定模型输入大小,以及实现置换不变性。第三,为实现车辆间影响程度的数值化,以车辆间相对速度和相对位置为参数,使用分子动力学理论为网联范围内HDV信息赋予权重。最后,分别在不同交通密度仿真环境中对不同换道决策模型和赋权方法进行对比,并测试ICV在不同网联范围(80~330m,以50m为间隔)下的换道决策效果。仿真结果表明,以40辆HDV、100 m网联范围为例,MAQ模型比DeepSet-Q模型拟合精度提高了90.2%;分子动力学赋权方法相比线性权重赋权方法总奖励值提高了5.5%,ICV平均车速提高了4.8%;ICV平均车速随着网联范围的扩大,呈现出先增大、再减小、后趋于平稳的变化规律。 |