论文题名: | 基于深度强化学习的动态定价和车辆巡航引导算法研究 |
关键词: | 车辆资源动态定价;车辆巡航引导;共享出行;深度强化学习;人工智能 |
摘要: | 近年来,共享出行服务迅速发展,其在优化城市交通、推动绿色发展和共享经济等方面发挥着至关重要的作用。针对与共享出行服务相关的车辆动态定价优化问题和车辆调度优化问题,也引起了工业界和学术界的广泛关注。 随着共享出行服务的发展,越来越多的运营商加入这个行业并发展壮大,给用户带来更多出行选择的同时也加剧了运营商之间的相互竞争。然而在多运营商场景下,传统的固化的定价策略不利于提高运营商竞争力、吸引更多潜在用户。因此,为了应对供需关系复杂化和市场竞争加剧等挑战,有必要建立良好的市场机制和合理的动态定价方法来处理出行用户与多运营商之间的交易,推动共享出行服务的持续健康发展。本文基于非合作博弈理论,将出行用户与多运营商之间的交易过程建模为二阶斯塔克尔伯格博弈,并且基于深度强化学习提出了运营商在竞争环境中的动态定价方法,运营商在多运营商竞争共存的环境中,根据市场供需关系和自身竞争力,动态调整定价策略从而最大化收益。仿真实验和分析结果表明,本文所提的动态定价方法能够有效提高运营商的核心竞争力,在改善运营商的收益的同时一定程度上改善了用户利益,进而,提高了整体的社会效益。 本文所研究的多运营商与用户的市场交易框架中,仍然存在着较为严重的供需失衡问题,随着人工智能(ArtificialIntelligence,AI)技术的发展与应用,已经有许多研究者基于深度强化学习等方法设计了车辆的优化调度方法。然而目前大部分研究工作都是在单运营商、单服务器的情况下通过智能模型优化车辆资源的利用、提高平台和司机收益。本文基于联邦策略蒸馏算法设计了一种车辆智能巡航引导方法,该方法通过深度强化学习方法引导车辆前往高负载地区,缓解全局的供需失衡问题;通过联邦学习方法实现分布式架构和不同运营商之间的数据信息安全共享;通过策略蒸馏方法传递较少的模型参数从而降低联邦学习的通信负担,并且根据全局知识和本地知识的蒸馏互补解决各个边缘端的数据异质给模型训练带来的问题,提高模型的泛化性能。仿真实验和分析结果表明,本文所提的车辆巡航引导方法能够在各个边缘端的数据异质的情况下,联合多个边缘服务器的数据进行训练,提高智能模型的训练效率和鲁棒性,减少司机空跑时长,提高车辆资源利用率和司机收益,进而提高运营商的收益。 |
作者: | 张恒 |
专业: | 计算机技术 |
导师: | 孙国林 |
授予学位: | 硕士 |
授予学位单位: | 电子科技大学 |
学位年度: | 2023 |