99国产福利导航,91大神在线观看视频

<ul id="jpr05"></ul>

一種鋼鐵行業(yè)煉鋼工藝優(yōu)化方法、設(shè)備及存儲介質(zhì)

編輯：冶金材料設(shè)備網(wǎng)

發(fā)布時間：2025-07-09

專利類型：

發(fā)明授權(quán)

申請(專利)號：

CN202510412928.9

申請日：

2025-04-03

授權(quán)公告號：

CN119940656B

授權(quán)公告日：

2025-06-27

申請人：

天府永興實驗室; 四川省環(huán)境政策研究與規(guī)劃院

地址：

610213 四川省成都市天府新區(qū)集萃街619號

發(fā)明人：

岳超; 臧劍; 賀光艷; 劉旭; 張蕾; 羅彬

專輯：

信息科技

專題：

計算機(jī)軟件及計算機(jī)應(yīng)用

主分類號：

G06Q10/04

分類號：

G06Q10/04;G06Q50/04;G06F30/27;G06N20/00;G06Q30/0202

國省代碼：

頁數(shù)：

代理機(jī)構(gòu)：

成都睿道智誠專利代理有限公司

代理人：

柏柯

主權(quán)項：

1.一種鋼鐵行業(yè)煉鋼工藝優(yōu)化方法,其特征在于,包括以下步驟：建立包含高爐-轉(zhuǎn)爐煉鋼、廢鋼煉鋼和還原鐵煉鋼三種煉鋼技術(shù)的參數(shù)化流程,定義物料、能源消耗、碳排放系數(shù)及成本參數(shù),構(gòu)建煉鋼工藝參數(shù)化模型；基于煉鋼工藝參數(shù)模型,定義煉鋼工藝的狀態(tài)空間和動作空間,設(shè)置多目標(biāo)獎勵函數(shù)和對應(yīng)的約束違反懲罰項,得到強(qiáng)化學(xué)習(xí)模型；其中,狀態(tài)空間包括市場份額、總成本、碳排放量、產(chǎn)量和技術(shù)平穩(wěn)性；動作空間為三種煉鋼技術(shù)的選擇策略；所述基于煉鋼工藝參數(shù)模型,定義煉鋼工藝的狀態(tài)空間和動作空間,設(shè)置多目標(biāo)獎勵函數(shù)和對應(yīng)的約束違反懲罰項,得到強(qiáng)化學(xué)習(xí)模型的具體過程為：將市場份額、總成本、碳排放量、產(chǎn)量及技術(shù)平穩(wěn)性作為狀態(tài)變量,構(gòu)建五元組狀態(tài)向量,如下式(1)所示：其中,表示技術(shù)在時間的市場份額；表示時間的煉鋼總成本；表示時間的碳排放量；表示時間的鋼鐵產(chǎn)量；表示技術(shù)平穩(wěn)性,即相鄰時間步市場份額變化的絕對值；將三種煉鋼技術(shù)的市場份額分配比例作為動作,如下式(2)所示：其中,表示智能體在狀態(tài)下可選擇的動作；、和分別表示三種煉鋼技術(shù)對應(yīng)的市場份額分配比例；和分別表示市場份額的上限和下限；獎勵函數(shù)如下式(3)所示：、和的表達(dá)式如下式(4)、式(5)和式(6)所示：其中,、、和分別表示對應(yīng)狀態(tài)向量的權(quán)重系數(shù)；、和分別表示對應(yīng)懲罰項的懲罰系數(shù)；表示碳排放約束的懲罰項；表示市場份額約束的懲罰項；表示鋼鐵產(chǎn)量約束的懲罰項；基于Q-learning算法對強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,通過狀態(tài)-動作-獎勵的交互循環(huán)更新Q值,動態(tài)調(diào)整選擇策略；所述基于Q-learning算法對強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,通過狀態(tài)-動作-獎勵的交互循環(huán)更新Q值,動態(tài)調(diào)整選擇策略的具體過程為：將所有狀態(tài)-動作對的Q值初始化為隨機(jī)值或零；基于當(dāng)前狀態(tài)和ε-貪心策略選擇動作,其中,ε-貪心策略以ε概率隨機(jī)探索動作空間,以1-ε概率選擇當(dāng)前Q值最大的動作；執(zhí)行所選動作,觸發(fā)環(huán)境狀態(tài)從轉(zhuǎn)移至,并根據(jù)獎勵函數(shù)計算即時獎勵,所述獎勵函數(shù)包含市場份額獎勵項、成本懲罰項、碳排放懲罰項、技術(shù)平穩(wěn)性懲罰項及約束違反懲罰項；采用式(7)更新Q值,式(7)如下所示：其中,表示Q值；表示Q值學(xué)習(xí)率；表示折扣因子,用于控制未來獎勵的影響；為下一個狀態(tài)下的最大Q值,表示智能體選擇最優(yōu)動作后的回報；通過下式(8)對行為策略進(jìn)行迭代更新,式(8)所示：其中,表示智能體在狀態(tài)下選擇的煉鋼工藝；對強(qiáng)化學(xué)習(xí)模型輸出的選擇策略進(jìn)行仿真驗證,若仿真結(jié)果未達(dá)到預(yù)期優(yōu)化目標(biāo),則通過離線梯度下降法調(diào)整強(qiáng)化學(xué)習(xí)模型的對應(yīng)參數(shù)并重新訓(xùn)練強(qiáng)化學(xué)習(xí)模型,直至滿足優(yōu)化目標(biāo)。

摘要：

本發(fā)明涉及鋼鐵行業(yè)低碳工藝優(yōu)化技術(shù)領(lǐng)域。本發(fā)明提供了一種鋼鐵行業(yè)煉鋼工藝優(yōu)化方法、設(shè)備及存儲介質(zhì),包括以下步驟：建立煉鋼技術(shù)的參數(shù)化流程,定義物料、能源消耗、碳排放系數(shù)及成本參數(shù),構(gòu)建煉鋼工藝參數(shù)化模型；基于煉鋼工藝參數(shù)模型,定義煉鋼工藝的狀態(tài)空間和動作空間,設(shè)置多目標(biāo)獎勵函數(shù)和對應(yīng)的約束違反懲罰項,得到強(qiáng)化學(xué)習(xí)模型；基于Q-learning算法對強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,通過狀態(tài)-動作-獎勵的交互循環(huán)更新Q值,動態(tài)調(diào)整選擇策略；對強(qiáng)化學(xué)習(xí)模型輸出的選擇策略進(jìn)行仿真驗證。從而解決了現(xiàn)有鋼鐵行業(yè)低碳路徑研究方法中存在的動態(tài)適應(yīng)性差、優(yōu)化目標(biāo)單一以及技術(shù)過渡不平穩(wěn)的問題。