Volume 1,Issue 4
Fall 2025
基于多阶段动态规划的电子产品生产过程决策研究
为推进电子产品生产过程的绿色低碳发展,本文提出了基于二项分布正态近似的抽样检测方案,此方法便于实际操作,但考虑其缺乏灵活性且对样本的依赖性较强,本文提出了基于序贯概率比检验的抽样检测,并给出两种检测方法的优缺点比较。分析四个生产阶段在不同决策下企业可能面临的成本费用,考虑到不同生产阶段之间相互影响,选择构建基于动态规划方法的多阶段决策过程最优化模型。利用该模型的马尔可夫性质,从阶段4到阶段1逐步递推,分别定义各个阶段的状态转移方程、成本函数以及动态规划方程,从而得到零配件检测决策、成品检测决策、不合格品的处理决策以及退回的不合格品的处理决策。将m道工序、n个零配件的生产过程视为一个多阶段的马尔可夫流程,再采用强化学习算法中的Q-learning方法进行建立模型,得到最优决策。
[1] 张雪媛.二项分布及其应用的历史研究[D].天津财经大学,2015.
[2] 崔岩,崔迪.计数序贯抽样检验方法在元器件验收中的应用[J].长春光学精密机械学院学报,1996,(04):68-72.
[3] 于超.基于统计过程控制和序贯概率比检验的高速铁路轨道结构监测数据异常诊断[D].北京交通大学,2021.
[4] 宋烊,崔梦天.动态规划在企业生产与储存管理中的应用[J].科技广场,2006,(6):114-116.
[5] 沈建新,周儒荣,廖文和.动态规划模型在生产库存优化中的应用研究[J].机械设计与制造工程,2002,31(6):112-113.
[6] 张峰,刘凌云,郭欣欣.基于改进Q-学习算法的多阶段群体决策模型[J].控制与决策,2019,34(09):1917-1922.
[7]Lowe, R., Wu, Y., Tamar, A., Harb, J., Abbeel, P., & Mordatch, I. Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments. Advances in
Neural Information Processing Systems, 2017, 30: 6379-6390.
[8] 刘波.一种基于强化学习的机械车间任务调度节能优化支持系统研究[D].重庆大学,2013.
[9] 星海.面向复杂批次过程的强化学习控制方案[D].厦门大学,2021
[10]Wald,A. (1945) Sequential Tests of Statistical Hypotheses. The Annals of Mathematical Statistics,16,117-186.