一種鋼鐵行業(yè)煉鋼工藝優(yōu)化方法、設(shè)備及存儲(chǔ)介質(zhì)
專利類型:發(fā)明授權(quán)申請(qǐng)(專利)號(hào):CN202510412928.9申請(qǐng)日:2025-04-03授權(quán)公告號(hào):CN119940656B授權(quán)公告日:2025-06-27申請(qǐng)人:天府永興實(shí)驗(yàn)室; 四川省環(huán)境政策研究與規(guī)劃院地址:610213 四川省成都市天府新區(qū)集萃街619號(hào)發(fā)明人:岳超; 臧劍; 賀光艷; 劉旭; 張蕾; 羅彬?qū)]嫞盒畔⒖萍紝n}:計(jì)算機(jī)軟件及計(jì)算機(jī)應(yīng)用主分類號(hào):G06Q10/04分類號(hào):G06Q10/04;G06Q50/04;G06F30/27;G06N20/00;G06Q30/0202國省代碼:51頁數(shù):21代理機(jī)構(gòu):成都睿道智誠專利代理有限公司代理人:柏柯主權(quán)項(xiàng):1.一種鋼鐵行業(yè)煉鋼工藝優(yōu)化方法,其特征在于,包括以下步驟:建立包含高爐-轉(zhuǎn)爐煉鋼、廢鋼煉鋼和還原鐵煉鋼三種煉鋼技術(shù)的參數(shù)化流程,定義物料、能源消耗、碳排放系數(shù)及成本參數(shù),構(gòu)建煉鋼工藝參數(shù)化模型;基于煉鋼工藝參數(shù)模型,定義煉鋼工藝的狀態(tài)空間和動(dòng)作空間,設(shè)置多目標(biāo)獎(jiǎng)勵(lì)函數(shù)和對(duì)應(yīng)的約束違反懲罰項(xiàng),得到強(qiáng)化學(xué)習(xí)模型;其中,狀態(tài)空間包括市場份額、總成本、碳排放量、產(chǎn)量和技術(shù)平穩(wěn)性;動(dòng)作空間為三種煉鋼技術(shù)的選擇策略;所述基于煉鋼工藝參數(shù)模型,定義煉鋼工藝的狀態(tài)空間和動(dòng)作空間,設(shè)置多目標(biāo)獎(jiǎng)勵(lì)函數(shù)和對(duì)應(yīng)的約束違反懲罰項(xiàng),得到強(qiáng)化學(xué)習(xí)模型的具體過程為:將市場份額、總成本、碳排放量、產(chǎn)量及技術(shù)平穩(wěn)性作為狀態(tài)變量,構(gòu)建五元組狀態(tài)向量,如下式(1)所示: 其中,表示技術(shù)在時(shí)間的市場份額;表示時(shí)間的煉鋼總成本;表示時(shí)間的碳排放量;表示時(shí)間的鋼鐵產(chǎn)量;表示技術(shù)平穩(wěn)性,即相鄰時(shí)間步市場份額變化的絕對(duì)值;將三種煉鋼技術(shù)的市場份額分配比例作為動(dòng)作,如下式(2)所示: 其中,表示智能體在狀態(tài)下可選擇的動(dòng)作;、和分別表示三種煉鋼技術(shù)對(duì)應(yīng)的市場份額分配比例;和分別表示市場份額的上限和下限;獎(jiǎng)勵(lì)函數(shù)如下式(3)所示: 、和的表達(dá)式如下式(4)、式(5)和式(6)所示: 其中,、、和分別表示對(duì)應(yīng)狀態(tài)向量的權(quán)重系數(shù);、和分別表示對(duì)應(yīng)懲罰項(xiàng)的懲罰系數(shù);表示碳排放約束的懲罰項(xiàng);表示市場份額約束的懲罰項(xiàng);表示鋼鐵產(chǎn)量約束的懲罰項(xiàng);基于Q-learning算法對(duì)強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,通過狀態(tài)-動(dòng)作-獎(jiǎng)勵(lì)的交互循環(huán)更新Q值,動(dòng)態(tài)調(diào)整選擇策略;所述基于Q-learning算法對(duì)強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,通過狀態(tài)-動(dòng)作-獎(jiǎng)勵(lì)的交互循環(huán)更新Q值,動(dòng)態(tài)調(diào)整選擇策略的具體過程為:將所有狀態(tài)-動(dòng)作對(duì)的Q值初始化為隨機(jī)值或零;基于當(dāng)前狀態(tài)和ε-貪心策略選擇動(dòng)作,其中,ε-貪心策略以ε概率隨機(jī)探索動(dòng)作空間,以1-ε概率選擇當(dāng)前Q值最大的動(dòng)作;執(zhí)行所選動(dòng)作,觸發(fā)環(huán)境狀態(tài)從轉(zhuǎn)移至,并根據(jù)獎(jiǎng)勵(lì)函數(shù)計(jì)算即時(shí)獎(jiǎng)勵(lì),所述獎(jiǎng)勵(lì)函數(shù)包含市場份額獎(jiǎng)勵(lì)項(xiàng)、成本懲罰項(xiàng)、碳排放懲罰項(xiàng)、技術(shù)平穩(wěn)性懲罰項(xiàng)及約束違反懲罰項(xiàng);采用式(7)更新Q值,式(7)如下所示: 其中,表示Q值;表示Q值學(xué)習(xí)率;表示折扣因子,用于控制未來獎(jiǎng)勵(lì)的影響;為下一個(gè)狀態(tài)下的最大Q值,表示智能體選擇最優(yōu)動(dòng)作后的回報(bào);通過下式(8)對(duì)行為策略進(jìn)行迭代更新,式(8)所示: 其中,表示智能體在狀態(tài)下選擇的煉鋼工藝;對(duì)強(qiáng)化學(xué)習(xí)模型輸出的選擇策略進(jìn)行仿真驗(yàn)證,若仿真結(jié)果未達(dá)到預(yù)期優(yōu)化目標(biāo),則通過離線梯度下降法調(diào)整強(qiáng)化學(xué)習(xí)模型的對(duì)應(yīng)參數(shù)并重新訓(xùn)練強(qiáng)化學(xué)習(xí)模型,直至滿足優(yōu)化目標(biāo)。摘要:本發(fā)明涉及鋼鐵行業(yè)低碳工藝優(yōu)化技術(shù)領(lǐng)域。本發(fā)明提供了一種鋼鐵行業(yè)煉鋼工藝優(yōu)化方法、設(shè)備及存儲(chǔ)介質(zhì),包括以下步驟:建立煉鋼技術(shù)的參數(shù)化流程,定義物料、能源消耗、碳排放系數(shù)及成本參數(shù),構(gòu)建煉鋼工藝參數(shù)化模型;基于煉鋼工藝參數(shù)模型,定義煉鋼工藝的狀態(tài)空間和動(dòng)作空間,設(shè)置多目標(biāo)獎(jiǎng)勵(lì)函數(shù)和對(duì)應(yīng)的約束違反懲罰項(xiàng),得到強(qiáng)化學(xué)習(xí)模型;基于Q-learning算法對(duì)強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,通過狀態(tài)-動(dòng)作-獎(jiǎng)勵(lì)的交互循環(huán)更新Q值,動(dòng)態(tài)調(diào)整選擇策略;對(duì)強(qiáng)化學(xué)習(xí)模型輸出的選擇策略進(jìn)行仿真驗(yàn)證。從而解決了現(xiàn)有鋼鐵行業(yè)低碳路徑研究方法中存在的動(dòng)態(tài)適應(yīng)性差、優(yōu)化目標(biāo)單一以及技術(shù)過渡不平穩(wěn)的問題。
編輯:冶金材料設(shè)備網(wǎng)
發(fā)布時(shí)間:2025-07-09