当前位置: 首页> 学位论文 >详情
原文传递 面向不确定性拓扑地图的导航策略研究
论文题名: 面向不确定性拓扑地图的导航策略研究
关键词: 交通管理;不确定性拓扑地图;导航策略;决策列表策略;双重动态规划;级联时序差分
摘要: 本文研究了均值-标准差(mean-std)加拿大旅行者问题(CTP)。与经典CTP不同的是,经典CTP旨在最小化旅行者的预期行程时间,同时考虑随机交通网络中边的通行(不可通行)概率,而本文引入了可靠性版本的CTP,它试图找到使行程时间平均值和标准差线性组合最小的导航策略。随着物联网(IoT)技术的发展,最终用户可以使用交通网络每条道路的行程时间统计数据,即平均值和标准差,及其通行概率来高效地完成导航过程。
  由于经典马尔科夫决策过程(MDP)对CTP问题的映射存在状态空间的指数级溢出。本文提出了恒定状态空间马尔科夫决策过程,并提出使用决策列表策略(DL-policy)完成道路通行不确定性到MDP动作空间的映射。经过推导证明,恒定状态空间MDP的状态空间和动作空间都是常数级的(分别与路网节点数和边数相等)。
  为了求解恒定状态空间MDP,本文提出了一种双重动态规划(DDP-DL)方法,该方法可以同时估计给定决策列表策略(DL-policy)的一阶矩和二阶矩,并通过广义策略迭代(GPI)方案对其进行改进直到逼近最优策略。另一方面,本文提出了级联时序差分(CTD-DL)强化学习算法对DL-policy产生回报值的平均值和方差进行估计,并进一步解决无模型情况下的mean-std CTP问题。
  同时,笔者构建了一个开源的测试环境来评估不同mean-std CTP解决方案的性能,在验证了DDP-DL和CTD-DL的收敛性和正确性后,证明了DDP-DL算法在一系列交通网络中优于其他最新技术。
作者: 师睿
专业: 控制科学与工程
导师: 陈云坪
授予学位: 硕士
授予学位单位: 电子科技大学
学位年度: 2022
检索历史
应用推荐