華夏科學(xué)院沈陽(yáng)自動(dòng)化研究所在車(chē)間智能調(diào)度方面取得新進(jìn)展,基于深度強(qiáng)化學(xué)習(xí)方法,實(shí)現(xiàn)了動(dòng)態(tài)訂單下可重構(gòu)車(chē)間對(duì)動(dòng)態(tài)生產(chǎn)調(diào)度和車(chē)間重構(gòu)得實(shí)時(shí)優(yōu)化和智能決策。相關(guān)研究成果發(fā)表在International Journal of Production Research上。
由于車(chē)間調(diào)度問(wèn)題多屬于NP難問(wèn)題,傳統(tǒng)元啟發(fā)式算法只能在多項(xiàng)式時(shí)間內(nèi)求得近優(yōu)解。對(duì)大規(guī)模問(wèn)題,元啟發(fā)式算法得求解時(shí)間難以滿足動(dòng)態(tài)生產(chǎn)環(huán)境下實(shí)時(shí)決策得需求。另外,小批量定制化得生產(chǎn)模式,要求車(chē)間滿足動(dòng)態(tài)可重構(gòu)。如何對(duì)可重構(gòu)車(chē)間得生產(chǎn)調(diào)度和車(chē)間重構(gòu)進(jìn)行實(shí)時(shí)優(yōu)化和動(dòng)態(tài)協(xié)同是研究難點(diǎn)。
科研人員基于深度強(qiáng)化學(xué)習(xí)方法,將生產(chǎn)調(diào)度和車(chē)間重構(gòu)得決策過(guò)程建模為馬爾科夫決策過(guò)程,建立了調(diào)度和重構(gòu)系統(tǒng)得深度強(qiáng)化學(xué)習(xí)模型,設(shè)計(jì)了獎(jiǎng)勵(lì)函數(shù)、狀態(tài)空間和行為空間等。訓(xùn)練后,決策智能體在求解質(zhì)量和求解時(shí)間上取得了比2種元啟發(fā)式算法(迭代貪婪算法和遺傳算法)更優(yōu)得結(jié)果。智能體對(duì)單個(gè)工件得決策時(shí)間僅為1.47 ms,可用于動(dòng)態(tài)生產(chǎn)環(huán)境下可重構(gòu)車(chē)間得實(shí)時(shí)優(yōu)化和智能決策。
研究工作得到China自然科學(xué)基金和遼寧省自然科學(xué)基金項(xiàng)目得支持。
基于深度強(qiáng)化學(xué)習(xí)得智能調(diào)度和重構(gòu)系統(tǒng)架構(gòu)
訓(xùn)練過(guò)程中目標(biāo)值得下降曲線
華夏科學(xué)院沈陽(yáng)自動(dòng)化研究所