摘要:Q-learning是一種經(jīng)典的增強(qiáng)學(xué)習(xí)算法,簡單易用且不需要環(huán)境模型;廣泛應(yīng)用于移動(dòng)機(jī)器人路徑規(guī)劃。但在狀態(tài)空間和動(dòng)作空間較大時(shí),經(jīng)典的Q-learning算法存在學(xué)習(xí)效率低、收斂速度慢,容易陷入局部最優(yōu)解等問題。通過引入神經(jīng)網(wǎng)絡(luò)模型,利用地圖信息計(jì)算狀態(tài)勢值,從而優(yōu)化了設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。合理獎(jiǎng)勵(lì)函數(shù)為Q(λ)-learning算法提供了先驗(yàn)知識(shí),避免訓(xùn)練中的盲目搜索,同時(shí)獎(jiǎng)勵(lì)函數(shù)激勵(lì)避免了陷入局部最優(yōu)解。仿真試驗(yàn)表明,改進(jìn)的路徑規(guī)劃方法在收斂速度方面有很大的提升,訓(xùn)練得到的路徑為全局最優(yōu)。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社。
自動(dòng)化與儀表雜志, 月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅(jiān)持科學(xué)性、學(xué)術(shù)性、先進(jìn)性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:專題研究與綜述、控制系統(tǒng)與智能制造、人工智能與機(jī)器人、檢測技術(shù)與數(shù)據(jù)處理、儀表與自動(dòng)化裝置、系統(tǒng)建模、仿真與分析、創(chuàng)新與實(shí)踐等。于1981年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。