QQ交談
專利類型:
發(fā)明授權(quán)
申請(專利)號:
CN202510412928.9
申請日:
2025-04-03
授權(quán)公告號:
CN119940656B
授權(quán)公告日:
2025-06-27
申請人:
天府永興實驗室; 四川省環(huán)境政策研究與規(guī)劃院
地址:
610213 四川省成都市天府新區(qū)集萃街619號
發(fā)明人:
岳超; 臧劍; 賀光艷; 劉旭; 張蕾; 羅彬
專輯:
信息科技
專題:
計算機(jī)軟件及計算機(jī)應(yīng)用
主分類號:
G06Q10/04
分類號:
G06Q10/04;G06Q50/04;G06F30/27;G06N20/00;G06Q30/0202
國省代碼:
51
頁數(shù):
21
代理機(jī)構(gòu):
成都睿道智誠專利代理有限公司
代理人:
柏柯
1.一種鋼鐵行業(yè)煉鋼工藝優(yōu)化方法,其特征在于,包括以下步驟:建立包含高爐-轉(zhuǎn)爐煉鋼、廢鋼煉鋼和還原鐵煉鋼三種煉鋼技術(shù)的參數(shù)化流程,定義物料、能源消耗、碳排放系數(shù)及成本參數(shù),構(gòu)建煉鋼工藝參數(shù)化模型;基于煉鋼工藝參數(shù)模型,定義煉鋼工藝的狀態(tài)空間和動作空間,設(shè)置多目標(biāo)獎勵函數(shù)和對應(yīng)的約束違反懲罰項,得到強(qiáng)化學(xué)習(xí)模型;其中,狀態(tài)空間包括市場份額、總成本、碳排放量、產(chǎn)量和技術(shù)平穩(wěn)性;動作空間為三種煉鋼技術(shù)的選擇策略;所述基于煉鋼工藝參數(shù)模型,定義煉鋼工藝的狀態(tài)空間和動作空間,設(shè)置多目標(biāo)獎勵函數(shù)和對應(yīng)的約束違反懲罰項,得到強(qiáng)化學(xué)習(xí)模型的具體過程為:將市場份額、總成本、碳排放量、產(chǎn)量及技術(shù)平穩(wěn)性作為狀態(tài)變量,構(gòu)建五元組狀態(tài)向量,如下式(1)所示: 其中,表示技術(shù)在時間的市場份額;表示時間的煉鋼總成本;表示時間的碳排放量;表示時間的鋼鐵產(chǎn)量;表示技術(shù)平穩(wěn)性,即相鄰時間步市場份額變化的絕對值;將三種煉鋼技術(shù)的市場份額分配比例作為動作,如下式(2)所示: 其中,表示智能體在狀態(tài)下可選擇的動作;、和分別表示三種煉鋼技術(shù)對應(yīng)的市場份額分配比例;和分別表示市場份額的上限和下限;獎勵函數(shù)如下式(3)所示: 、和的表達(dá)式如下式(4)、式(5)和式(6)所示: 其中,、、和分別表示對應(yīng)狀態(tài)向量的權(quán)重系數(shù);、和分別表示對應(yīng)懲罰項的懲罰系數(shù);表示碳排放約束的懲罰項;表示市場份額約束的懲罰項;表示鋼鐵產(chǎn)量約束的懲罰項;基于Q-learning算法對強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,通過狀態(tài)-動作-獎勵的交互循環(huán)更新Q值,動態(tài)調(diào)整選擇策略;所述基于Q-learning算法對強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,通過狀態(tài)-動作-獎勵的交互循環(huán)更新Q值,動態(tài)調(diào)整選擇策略的具體過程為:將所有狀態(tài)-動作對的Q值初始化為隨機(jī)值或零;基于當(dāng)前狀態(tài)和ε-貪心策略選擇動作,其中,ε-貪心策略以ε概率隨機(jī)探索動作空間,以1-ε概率選擇當(dāng)前Q值最大的動作;執(zhí)行所選動作,觸發(fā)環(huán)境狀態(tài)從轉(zhuǎn)移至,并根據(jù)獎勵函數(shù)計算即時獎勵,所述獎勵函數(shù)包含市場份額獎勵項、成本懲罰項、碳排放懲罰項、技術(shù)平穩(wěn)性懲罰項及約束違反懲罰項;采用式(7)更新Q值,式(7)如下所示: 其中,表示Q值;表示Q值學(xué)習(xí)率;表示折扣因子,用于控制未來獎勵的影響;為下一個狀態(tài)下的最大Q值,表示智能體選擇最優(yōu)動作后的回報;通過下式(8)對行為策略進(jìn)行迭代更新,式(8)所示: 其中,表示智能體在狀態(tài)下選擇的煉鋼工藝;對強(qiáng)化學(xué)習(xí)模型輸出的選擇策略進(jìn)行仿真驗證,若仿真結(jié)果未達(dá)到預(yù)期優(yōu)化目標(biāo),則通過離線梯度下降法調(diào)整強(qiáng)化學(xué)習(xí)模型的對應(yīng)參數(shù)并重新訓(xùn)練強(qiáng)化學(xué)習(xí)模型,直至滿足優(yōu)化目標(biāo)。
本發(fā)明涉及鋼鐵行業(yè)低碳工藝優(yōu)化技術(shù)領(lǐng)域。本發(fā)明提供了一種鋼鐵行業(yè)煉鋼工藝優(yōu)化方法、設(shè)備及存儲介質(zhì),包括以下步驟:建立煉鋼技術(shù)的參數(shù)化流程,定義物料、能源消耗、碳排放系數(shù)及成本參數(shù),構(gòu)建煉鋼工藝參數(shù)化模型;基于煉鋼工藝參數(shù)模型,定義煉鋼工藝的狀態(tài)空間和動作空間,設(shè)置多目標(biāo)獎勵函數(shù)和對應(yīng)的約束違反懲罰項,得到強(qiáng)化學(xué)習(xí)模型;基于Q-learning算法對強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,通過狀態(tài)-動作-獎勵的交互循環(huán)更新Q值,動態(tài)調(diào)整選擇策略;對強(qiáng)化學(xué)習(xí)模型輸出的選擇策略進(jìn)行仿真驗證。從而解決了現(xiàn)有鋼鐵行業(yè)低碳路徑研究方法中存在的動態(tài)適應(yīng)性差、優(yōu)化目標(biāo)單一以及技術(shù)過渡不平穩(wěn)的問題。