论文题名: | 面向不确定性拓扑地图的导航策略研究 |
关键词: | 交通管理;不确定性拓扑地图;导航策略;决策列表策略;双重动态规划;级联时序差分 |
摘要: | 本文研究了均值-标准差(mean-std)加拿大旅行者问题(CTP)。与经典CTP不同的是,经典CTP旨在最小化旅行者的预期行程时间,同时考虑随机交通网络中边的通行(不可通行)概率,而本文引入了可靠性版本的CTP,它试图找到使行程时间平均值和标准差线性组合最小的导航策略。随着物联网(IoT)技术的发展,最终用户可以使用交通网络每条道路的行程时间统计数据,即平均值和标准差,及其通行概率来高效地完成导航过程。 由于经典马尔科夫决策过程(MDP)对CTP问题的映射存在状态空间的指数级溢出。本文提出了恒定状态空间马尔科夫决策过程,并提出使用决策列表策略(DL-policy)完成道路通行不确定性到MDP动作空间的映射。经过推导证明,恒定状态空间MDP的状态空间和动作空间都是常数级的(分别与路网节点数和边数相等)。 为了求解恒定状态空间MDP,本文提出了一种双重动态规划(DDP-DL)方法,该方法可以同时估计给定决策列表策略(DL-policy)的一阶矩和二阶矩,并通过广义策略迭代(GPI)方案对其进行改进直到逼近最优策略。另一方面,本文提出了级联时序差分(CTD-DL)强化学习算法对DL-policy产生回报值的平均值和方差进行估计,并进一步解决无模型情况下的mean-std CTP问题。 同时,笔者构建了一个开源的测试环境来评估不同mean-std CTP解决方案的性能,在验证了DDP-DL和CTD-DL的收敛性和正确性后,证明了DDP-DL算法在一系列交通网络中优于其他最新技术。 |
作者: | 师睿 |
专业: | 控制科学与工程 |
导师: | 陈云坪 |
授予学位: | 硕士 |
授予学位单位: | 电子科技大学 |
学位年度: | 2022 |