详情

原文传递基于深度强化学习的汽车涂装生产排序研究

论文题名：	基于深度强化学习的汽车涂装生产排序研究
关键词：	生产排序;深度强化学习;多目标优化;汽车制造厂;涂装车间
摘要：	近年来，汽车制造厂在同一混合型生产线上生产多种车型和颜色的汽车，以增加生产灵活性，降低运营成本。从车身车间离开的产品以总装需求顺序进入涂装车间进行生产，然而涂装车间内部存在重排序调度环节，同时要求离开涂装车间的产品序列与总装需求订单序列一致。因此，混流生产模式下面向涂装-总装车间系统的排序调度问题作为汽车生产系统中一个极为重要的调度决策问题，受到了实践者和研究者的广泛关注。一方面，过去学者们常将涂装车间内部的重排序调度问题和涂装完成产品进入总装车间的序列一致性排序调度问题作为单独的两个优化问题分别研究，而忽略了两车间的联动性。另一方面，混流生产的产品排序调度问题是一类复杂的难以在多项式时间内求解的问题，以往研究多针对小规模算例提出算法并进行验证，但当实际大规模问题涉及多颜色、多车型、多订单的排序调度时，以往精确算法、启发式算法和元启发式算法均无法快速给出优化调度方案。　　本研究从实践中出发，分析实际涂装生产流程中排序调度需要考虑的多方面要素，结合复杂的生产约束、缓存区结构和生产线布局，构建出面向涂装-总装车间的生产排序调度问题的管理与优化方法，采用深度强化学习与启发式算法联合的混合算法可以大大缩短实际调度问题的求解时间，且精度高于传统算法，为汽车制造厂涂装车间的生产计划制定与产品生产序列的控制提供快速且有效的决策支持。本研究的主要内容如下: 　　(1)涂装车间排序调度分析与模型架构研究　　分析和探讨涂装车间的生产流程和生产排序调度管理中所需考虑的要素，基于实际生产流程和关键生产度量指标，结合混合流水车间调度问题模型，明确本研究整体的调度目标、决策和模型框架。从运营成本和排序效果两个角度提出排序调度度量指标，建立混流生产模式下的带有限缓存区的三阶段混合流水车间调度模型，提出基于规则的启发式算法，并针对一个实际的调度场景进行求解，验证模型和算法的有效性。　　(2)基于深度强化学习的排序调度模型与算法　　基于所提出的三阶段混合流水车间调度框架，针对第二阶段并行喷涂生产线上的排序调度问题进行深入研究。从运营成本的角度出发，考虑涂装车间中发生在换色缓存区内的颜色批处理重排序问题，建立以最小化颜色切换成本为目标的带有限缓存区的单机流水车间调度模型。提出一个CH模型降低决策维度，解决解空间维度爆炸的问题，进而提出基于深度强化学习的深度Q网络算法，解决颜色批处理重排序问题，并与传统启发式算法进行对比，验证了本研究所提出的模型和算法优于传统启发式算法，可以有效且快速的求解优化问题。　　(3)基于多目标强化学习的多目标调度模型与算法　　基于研究(2)的单目标调度优化问题，进行多目标优化调度问题的扩展研究。从运营成本和排序效果的角度出发，考虑第二阶段中发生在换色缓存区内的颜色批处理重排序问题和颜色批处理后订单与计划作业序列的差异问题，建立以最小化颜色切换成本和最小化订单完成非一致性为优化目标的带有限缓存区的单机流水车间多目标调度模型。提出了基于多目标强化学习的多目标深度Q网络优化算法，在不需要知道先验目标偏好的情况下给出帕利托解集，并与传统启发式算法和基于多目标强化学习的包络Q-学习算法进行对比，验证了本研究所提出的模型和算法可以有效且快速求解多目标调度优化问题，算法对目标偏好的泛化能力强，当实际应用中实时给予某一目标偏好时，算法可以快速获得调度方案。　　(4)面向涂装-总装系统的多目标排序调度方法的应用　　在研究(3)中提出的多目标优化算法基础上，深化研究(1)提出的调度问题框架，将涂装车间排序调度问题拓展为面向涂装-总装生产系统的多目标排序调度问题。从运营成本和排序效果的角度出发，将整个调度系统的总颜色切换成本最小化和总订单完成非一致性最小化为两个优化目标，再次梳理混流生产模式下的带有限缓存区的三阶段混合流水车间调度模型，提出了启发式算法与基于多目标强化学习的多目标深度Q网络算法联合的混合算法。最终，整合优化面向涂装-总装的混合流水车间的多目标调度方案，以实现降低运营成本和高效生产的目标，为汽车制造厂商提供科学的调度决策依据。
作者：	冷浕伶
专业：	管理科学与工程
导师：	金淳
授予学位：	博士
授予学位单位：	大连理工大学
学位年度：	2021