深度强化学习算法求解装配调度问题

猿急送>长沙兼职程序员>逆旅行人>

案例列表

基本信息

案例ID：216175

技术顾问：逆旅行人 - 1年经验 - 字节跳动

联系沟通

微信扫码，建群沟通

项目名称：深度强化学习算法求解装配调度问题

所属行业：人工智能 - 其他

->查看更多案例

案例介绍

能源装备、航空航天装备、船舶装备制造等领域的产品工艺结构树往往比较复杂，在车间生产组织和运行中，具有同时需要考虑机加与装配工艺且工序数多的情况，易形成大规模柔性综合调度问题，而该类问题存在庞大的解空间，快速寻优面临着巨大挑战。制造过程中，更需要及时响应动态干扰、高效有序地组织生产，为此需要研究生产调度优化方法，能够灵活适应大规模车间生产调度和动态干扰环境，以提高企业质量、缩短制造工期。因此，研究大规模柔性综合调度问题具有重大的理论价值和实际工程意义，本文对此开展了如下工作：
(1) 建立了大规模柔性综合静态调度模型和考虑新产品到达与随机工时的大规模柔性综合动态调度模型。本文以最小化最大完工时间和最小总拖期为优化目标，考虑大规模柔性综合作业车间中的工艺、机器柔性和总工序数的大规模等约束，构建了大规模柔性综合作业车间静态调度问题模型，并在此基础上建立综合考虑了新产品到达和随机工时两种扰动的动态调度模型，为大规模柔性综合调度问题建立数学模型。
(2) 构建了基于D3QN算法的大规模柔性综合调度模型框架。本文首先将大规模柔性综合调度数学模型转化为马尔可夫决策过程，即设计状态特征、动作空间和奖励函数，从工序和机器分别设计了2组矩阵表示的状态特征和8组复合调度规则作为动作空间；为了实现最小化最大完工时间和最小总拖期的权重优化目标，根据机器利用率均衡和产品平均延误率即时奖励，并针对大规模柔性综合调度问题，提出混合搭建的神经网络结构并进行对比验证，最后通过与其他算法对比验证本文所提算法的有效性和优越性。
(3) 提出了基于ID3QN算法的动态调度框架求解大规模柔性综合作业车间动态调度模型。为了让D3QN算法及时响应动态调度问题，本文在静态调度算法的基础上，从产品、工序和机器三个层面设计9个状态特征，通过权重优化目标值的大小筛选出5组复合调度规则作为动作空间，以提高算法的运行效率。针对算法易陷入局部最优的问题，引入经验回放机制进一步提升算法的精度和稳定性，并通过实验验证了所提算法框架的优越性与有效性。
(4) 将本文所提调度方法应用于工程实例中，对某大型复杂产品生产作业车间进行调度优化，进一步证明本文构建的大规模柔性综合调度数学模型和深度强化学习算法求解框架的有效性。