论文题名: | 多智能体情感决策学习方法及其在Flow智能交通中的应用 |
关键词: | 智能交通;Flow平台;多智能体;情感决策;强化学习 |
摘要: | 传统的计算机技术已经满足不了人工智能的发展需求,人们迫切需求更加智能的决策学习方法来解决各种复杂问题。分布式技术使得智能体(Agent)之间可以相互协作和学习,处理复杂决策问题的能力大大提升,已成为智能控制领域的研究热点。然而,多智能体(Multi-Agent)在完成需要频繁交互的决策任务时,普遍存在学习能力差、偏好评估和群体一致性较低等问题。近年来,情感计算以其可以量化展示群体智慧的涌现过程和决策一致性的收敛过程的优势,为解决这类复杂决策问题提供了一种新方法。 目前针对情感计算的研究主要集中在情感识别和表达,鲜有探讨如何利用情感机制来进行更好的决策。此外,智能体的发展局限于逻辑推理能力的改进,很少涉及个体情感变化和群体情感交互。值得一提的是,面向大规模多智能体的系统建模问题时,情感机制的反馈会有助于更好地评估当前的环境并帮助智能体做出有利的决策,使得系统更加智能,决策更加高效。 为此,本文提出了一种情感交互机制下的多智能体决策学习方法,构造了融合决策偏好的多层情感计算模型,给出了智能体情感变化和行为偏好之间的映射关系;然后,定义了一种新型的决策一致性指数和方案决策熵,以此体现决策的收敛过程和群体一致性,并通过数值实例证明在解决传统群决策问题上的可行性和优势;最后,给出了强化学习框架下的智能体内部情感奖励函数的定义,建立了一类情感驱动的强化学习模型。将所提决策学习方法应用于Flow智能交通控制平台,对比传统的交通控制和强化学习方法,本文所提情感交互式决策方法可以提高Flow平台中智能体的学习速度和交通流畅度,对于强化学习在复杂场景普遍存在的奖励稀疏问题也有明显改善。 本文工作为传统群决策问题提供了一种群体情感交互决策方法,同时基于Flow智能交通系统建立了一种情感驱动下的多智能体强化学习方法,这为未来城市智能交通系统的构建找到了一条新的途径。 |
作者: | 彭程 |
专业: | 计算机技术 |
导师: | 宿翀;周培建 |
授予学位: | 硕士 |
授予学位单位: | 北京化工大学 |
学位年度: | 2020 |
正文语种: | 中文 |