当前位置: 首页> 学位论文 >详情
原文传递 基于深度强化学习的AGV运动控制及实时导航研究
论文题名: 基于深度强化学习的AGV运动控制及实时导航研究
关键词: 智慧物流;智能仓储;自动导航车;运动控制;实时导航;深度强化学习
摘要: 智能化制造已经成为我国制造业转型升级的重要方向,智慧物流系统和智能仓储系统正是其中关键的组成部分。通过智能化的设备和技术,实现对物流和仓储活动的高效管理和优化,大大提高了物流和仓储的自动化水平,提高了生产效率和质量。自动导航车(AutomatedGuidedVehicle,AGV)作为自主移动设备,可以在无人操作的情况下完成路径规划、物料搬运和运输任务,从而提高生产效率和准确性。因此,为了实现快速、准确、安全的物流运输,AGV具备智能化特性至关重要。目前,AGV研发技术及其方案多是提前布局好路线的二维码、SLAM视觉等导航方式,该类导航方式存在瓶颈,导致了实际应用的困难。AGV需要能够自动完成路径规划、优化和导航,在运输过程中能够自适应环境、安全避让,确保物流过程的高效性和安全性。
  本文针对AGV系统中的实时导航问题,提出了一种基于深度强化学习策略(DeepReinforcementLearning,DRL)的AGV运动控制及实时导航方法。该方法易于获得环境信息,并进行智能决策以实现端到端路径规划,从而解决了AGV系统导航问题的实时最优控制。本文的主要研究内容如下:
  (1)动力学建模。通过微分方程建模,可以描述AGV在不同时间点上的运动状态和变化规律。本文根据AGV的物理特性、控制系统和环境因素,运用微分方程对AGV动力学进行了完整的建模分析,对宏观运动情况进行深入理解,并且针对AGV运动过程中时变的位置、速度、姿势角、偏转角等变量进行了详细的设计和建模。
  (2)马尔可夫决策过程构建。本论文利用马尔可夫决策过程(MarkovDecisionPro-cess,MDP)模型对AGV的动力学模型进行规划,包括动作空间、状态空间、动作转移函数、复合奖励函数等,建立了AGV导航过程的决策框架,并为后续的强化学习算法提供了基础。
  (3)复合奖励机制设计。传统的导航决策方法通常使用单一的奖励信号,但这种方法难以兼顾多个导航目标和约束条件。为了解决这个问题,本论文设计了复合奖励机制,用于强化学习中的AGV导航任务。该复合奖励机制将多个因素考虑在内,如路径长度、安全性、时间效率等。通过综合考虑这些因素,Agv可以更全面地评估导航策略,并做出更优的决策。
  (4)基于深度强化学习的AGV实时最优导航策略设计。为了加速学习过程并减少决策时间成本,本论文引入了SumTree数据结构作为经验回放机制的优化方式。SumTree数据结构能够高效地存储和检索经验样本,并根据样本的重要性进行有针对性的抽样。通过这种方式,AGV可以更好地利用先前的经验,进而加速学习过程,建立最优控制模型,提高路径规划的准确度和效率。
  (5)针对基于深度强化学习的AGV最优导航策略进行了广泛场景的测试,包括无障碍环境、规则静态环境,不规则静态环境、动态环境。实验结果表明,改进后的方法相比于传统的方法都具有较高的路径规划成功率和优异的路径规划结果,在复杂未知环境中依旧能够实现AGV实时导航,具有很强的鲁棒性,并且相较于基线算法模型获得了最佳的任务效果。这为AGV系统的实时导航提供了可靠解决方案,具备广泛的实际应用潜力和推广价值。
作者: 郭海森
专业: 控制工程
导师: 王界兵;张坤
授予学位: 硕士
授予学位单位: 广东工业大学
学位年度: 2023
检索历史
应用推荐