论文题名: | 基于深度强化学习的集装箱堆叠优化算法研究 |
关键词: | 集装箱堆场;堆叠操作;深度强化学习;多头自注意力机制;多层感知机 |
摘要: | 在集装箱码头的堆场中,集装箱的堆叠操作是存储环节中不可缺少的一部分,合理的堆叠方案能有效减少倒箱操作,降低码头船只与陆运车辆的等待时间以及场桥的运行成本,对集装箱操作和堆场运行效率有重要意义。 本文研究的问题为将一组集装箱按顺序存储在一定数量的具有容量限制的堆栈中,目标为产生的无序堆叠集装箱数最少。在之前的研究中,简单的堆叠规则难以保证求解的质量,精确求解算法和启发式搜索算法的求解效率受问题规模影响巨大,本文采用一种基于深度强化学习的优化算法解决此问题,具体研究工作如下: 研究了集装箱堆叠过程、混合整数规划模型及其求解过程,在此基础上,设计了强化学习解决集装箱堆叠问题的流程。依据强化学习原理,对集装箱堆叠优化进行强化学习建模,针对集装箱堆叠过程设计了环境状态、动作、奖励、状态转移和策略等强化学习基本要素。 根据深度强化学习框架设计了策略网络,包括堆场环境特征提取网络和堆叠决策网络。为提高学习效果,设计了基于多头自注意力机制的堆场环境特征提取网络和基于多层感知机的堆叠决策网络,策略网络能够较好地提取状态矩阵中不同堆栈状态之间的关联信息并做出决策。根据不同强化学习算法的特点和本文研究的问题特点,选用近端策略优化算法为本文强化学习训练算法。实验结果表明,与现有方法相比,训练得到的堆叠策略在小规模问题(30个集装箱)上与最优解的差距为17.36%,在中规模问题(200个集装箱)和大规模问题(500个集装箱)上均可以超过Best fit等常用堆叠规则和集束搜索算法,且求解时间不会随问题规模的增大而大幅增长。深度强化学习算法能适应一定的随机性变化,当集装箱数量和堆栈容量限制(最高堆叠层数)发生一定变化时,训练得到的深度模型仍然可用,且求解结果优于堆叠规则和集束搜索算法,具有较强的泛化性能。 为了本文堆叠优化算法的深入研究和实际应用,设计了集装箱堆叠优化软件。通过需求分析确定了软件的功能和数据需求,采用模型.视图.控制器架构模式设计‘软件结构。经过运行测试,软件的工程管理、深度模型训练和集装箱堆叠优化功能均可以正常使用,为软件的实际应用奠定了良好基础。 |
作者: | 段振堂 |
专业: | 控制科学与工程 |
导师: | 李歧强;宋文 |
授予学位: | 硕士 |
授予学位单位: | 山东大学 |
学位年度: | 2022 |