详情

当前位置：首页> 学位论文 >详情

原文传递面向不确定性拓扑地图的导航策略研究

论文题名：	面向不确定性拓扑地图的导航策略研究
关键词：	交通管理;不确定性拓扑地图;导航策略;决策列表策略;双重动态规划;级联时序差分
摘要：	本文研究了均值-标准差（mean-std）加拿大旅行者问题（CTP）。与经典CTP不同的是，经典CTP旨在最小化旅行者的预期行程时间，同时考虑随机交通网络中边的通行（不可通行）概率，而本文引入了可靠性版本的CTP，它试图找到使行程时间平均值和标准差线性组合最小的导航策略。随着物联网（IoT）技术的发展，最终用户可以使用交通网络每条道路的行程时间统计数据，即平均值和标准差，及其通行概率来高效地完成导航过程。　　由于经典马尔科夫决策过程（MDP）对CTP问题的映射存在状态空间的指数级溢出。本文提出了恒定状态空间马尔科夫决策过程，并提出使用决策列表策略（DL-policy）完成道路通行不确定性到MDP动作空间的映射。经过推导证明，恒定状态空间MDP的状态空间和动作空间都是常数级的（分别与路网节点数和边数相等）。　　为了求解恒定状态空间MDP，本文提出了一种双重动态规划（DDP-DL）方法，该方法可以同时估计给定决策列表策略（DL-policy）的一阶矩和二阶矩，并通过广义策略迭代（GPI）方案对其进行改进直到逼近最优策略。另一方面，本文提出了级联时序差分（CTD-DL）强化学习算法对DL-policy产生回报值的平均值和方差进行估计，并进一步解决无模型情况下的mean-std CTP问题。　　同时，笔者构建了一个开源的测试环境来评估不同mean-std CTP解决方案的性能，在验证了DDP-DL和CTD-DL的收敛性和正确性后，证明了DDP-DL算法在一系列交通网络中优于其他最新技术。
作者：	师睿
专业：	控制科学与工程
导师：	陈云坪
授予学位：	硕士
授予学位单位：	电子科技大学
学位年度：	2022

相关文献

检索历史

应用推荐