加勒比一区免费看|日日夜夜婷婷草|国产亚洲1区2区|美国熟女乱伦视频|激情影院五月丁香|黄片裸体免费观看|欧美日韩免费视频|无码中文AV资源|国产自产501区|亚洲av毛片免费

歡迎您來到冶金材料設(shè)備網(wǎng)——18年專注冶金行業(yè)!

客服熱線電話

13313317360

一種鋼鐵行業(yè)煉鋼工藝優(yōu)化方法、設(shè)備及存儲介質(zhì)

編輯:冶金材料設(shè)備網(wǎng)
發(fā)布時間:2025-07-09

專利類型:

發(fā)明授權(quán)

申請(專利)號:

CN202510412928.9

申請日:

2025-04-03

授權(quán)公告號:

CN119940656B

授權(quán)公告日:

2025-06-27

申請人:

天府永興實驗室; 四川省環(huán)境政策研究與規(guī)劃院

地址:

610213 四川省成都市天府新區(qū)集萃街619號

發(fā)明人:

岳超; 臧劍; 賀光艷; 劉旭; 張蕾; 羅彬

專輯:

信息科技

專題:

計算機(jī)軟件及計算機(jī)應(yīng)用

主分類號:

G06Q10/04

分類號:

G06Q10/04;G06Q50/04;G06F30/27;G06N20/00;G06Q30/0202

國省代碼:

51

頁數(shù):

21

代理機(jī)構(gòu):

成都睿道智誠專利代理有限公司

代理人:

柏柯

主權(quán)項:

1.一種鋼鐵行業(yè)煉鋼工藝優(yōu)化方法,其特征在于,包括以下步驟:建立包含高爐-轉(zhuǎn)爐煉鋼、廢鋼煉鋼和還原鐵煉鋼三種煉鋼技術(shù)的參數(shù)化流程,定義物料、能源消耗、碳排放系數(shù)及成本參數(shù),構(gòu)建煉鋼工藝參數(shù)化模型;基于煉鋼工藝參數(shù)模型,定義煉鋼工藝的狀態(tài)空間和動作空間,設(shè)置多目標(biāo)獎勵函數(shù)和對應(yīng)的約束違反懲罰項,得到強(qiáng)化學(xué)習(xí)模型;其中,狀態(tài)空間包括市場份額、總成本、碳排放量、產(chǎn)量和技術(shù)平穩(wěn)性;動作空間為三種煉鋼技術(shù)的選擇策略;所述基于煉鋼工藝參數(shù)模型,定義煉鋼工藝的狀態(tài)空間和動作空間,設(shè)置多目標(biāo)獎勵函數(shù)和對應(yīng)的約束違反懲罰項,得到強(qiáng)化學(xué)習(xí)模型的具體過程為:將市場份額、總成本、碳排放量、產(chǎn)量及技術(shù)平穩(wěn)性作為狀態(tài)變量,構(gòu)建五元組狀態(tài)向量,如下式(1)所示: 其中,表示技術(shù)在時間的市場份額;表示時間的煉鋼總成本;表示時間的碳排放量;表示時間的鋼鐵產(chǎn)量;表示技術(shù)平穩(wěn)性,即相鄰時間步市場份額變化的絕對值;將三種煉鋼技術(shù)的市場份額分配比例作為動作,如下式(2)所示: 其中,表示智能體在狀態(tài)下可選擇的動作;、和分別表示三種煉鋼技術(shù)對應(yīng)的市場份額分配比例;和分別表示市場份額的上限和下限;獎勵函數(shù)如下式(3)所示: 、和的表達(dá)式如下式(4)、式(5)和式(6)所示: 其中,、、和分別表示對應(yīng)狀態(tài)向量的權(quán)重系數(shù);、和分別表示對應(yīng)懲罰項的懲罰系數(shù);表示碳排放約束的懲罰項;表示市場份額約束的懲罰項;表示鋼鐵產(chǎn)量約束的懲罰項;基于Q-learning算法對強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,通過狀態(tài)-動作-獎勵的交互循環(huán)更新Q值,動態(tài)調(diào)整選擇策略;所述基于Q-learning算法對強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,通過狀態(tài)-動作-獎勵的交互循環(huán)更新Q值,動態(tài)調(diào)整選擇策略的具體過程為:將所有狀態(tài)-動作對的Q值初始化為隨機(jī)值或零;基于當(dāng)前狀態(tài)和ε-貪心策略選擇動作,其中,ε-貪心策略以ε概率隨機(jī)探索動作空間,以1-ε概率選擇當(dāng)前Q值最大的動作;執(zhí)行所選動作,觸發(fā)環(huán)境狀態(tài)從轉(zhuǎn)移至,并根據(jù)獎勵函數(shù)計算即時獎勵,所述獎勵函數(shù)包含市場份額獎勵項、成本懲罰項、碳排放懲罰項、技術(shù)平穩(wěn)性懲罰項及約束違反懲罰項;采用式(7)更新Q值,式(7)如下所示: 其中,表示Q值;表示Q值學(xué)習(xí)率;表示折扣因子,用于控制未來獎勵的影響;為下一個狀態(tài)下的最大Q值,表示智能體選擇最優(yōu)動作后的回報;通過下式(8)對行為策略進(jìn)行迭代更新,式(8)所示: 其中,表示智能體在狀態(tài)下選擇的煉鋼工藝;對強(qiáng)化學(xué)習(xí)模型輸出的選擇策略進(jìn)行仿真驗證,若仿真結(jié)果未達(dá)到預(yù)期優(yōu)化目標(biāo),則通過離線梯度下降法調(diào)整強(qiáng)化學(xué)習(xí)模型的對應(yīng)參數(shù)并重新訓(xùn)練強(qiáng)化學(xué)習(xí)模型,直至滿足優(yōu)化目標(biāo)。

摘要:

本發(fā)明涉及鋼鐵行業(yè)低碳工藝優(yōu)化技術(shù)領(lǐng)域。本發(fā)明提供了一種鋼鐵行業(yè)煉鋼工藝優(yōu)化方法、設(shè)備及存儲介質(zhì),包括以下步驟:建立煉鋼技術(shù)的參數(shù)化流程,定義物料、能源消耗、碳排放系數(shù)及成本參數(shù),構(gòu)建煉鋼工藝參數(shù)化模型;基于煉鋼工藝參數(shù)模型,定義煉鋼工藝的狀態(tài)空間和動作空間,設(shè)置多目標(biāo)獎勵函數(shù)和對應(yīng)的約束違反懲罰項,得到強(qiáng)化學(xué)習(xí)模型;基于Q-learning算法對強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,通過狀態(tài)-動作-獎勵的交互循環(huán)更新Q值,動態(tài)調(diào)整選擇策略;對強(qiáng)化學(xué)習(xí)模型輸出的選擇策略進(jìn)行仿真驗證。從而解決了現(xiàn)有鋼鐵行業(yè)低碳路徑研究方法中存在的動態(tài)適應(yīng)性差、優(yōu)化目標(biāo)單一以及技術(shù)過渡不平穩(wěn)的問題。


相關(guān)閱讀

一種鋼鐵企業(yè)產(chǎn)品碳足跡低碳路徑尋優(yōu)方法 一種鋼鐵冶煉爐體側(cè)吹槍體安裝方法及側(cè)吹槍體結(jié)構(gòu) 一種鋼鐵產(chǎn)品質(zhì)量異議的分析方法及相關(guān)設(shè)備 一種基于物聯(lián)網(wǎng)的鋼鐵行業(yè)超低排放智能控制系統(tǒng) 高硅鋼鐵的金相樣品制備方法 面向鋼鐵工業(yè)的基于大模型的智能統(tǒng)籌分配方法