頁籤選單縮合
題名 | 馬可夫決策過程、政策改進法之探討 |
---|---|
作 者 | 李鴻濤; | 書刊名 | 勤益學報 |
卷期 | 9 1992.03[民81.03] |
頁次 | 頁221-238 |
分類號 | 319.16 |
關鍵詞 | 改進法; 決策過程; 政策; 馬可夫; |
語文 | 中文(Chinese) |
中文摘要 | 應用在決策理論的數學模式相當多,其中以動態規劃(Dynamic programming)及隨機過程(stochastic process)模式,最為學者所樂道。動態規劃一般 用在計劃期較短,且狀態轉移為確定的情況,而隨機過程則用在計劃期較長,且 狀態轉移為其有一已知機率分配的情況。由此可知,隨機過程在對實際狀況的描 述上更其有彈性,若加以修正,方可完成動態規劃之有關功能。 馬可夫決策過程(Markovian decision process)乃依據隨機過程演變而來,應用隨機 過程中的部份性質,一般稱之為馬可夫鏈(Markov chain)的轉移機率矩陣,配合已 知之決策行為及成本資料,即可求出最佳的行為準則即政策(Policy)來。而在求解 的方法上,以線性規劃(Linear programming)及政策改進法(Policy improvement)最凸 出但線性規劃法,常因變數過多而造成效率不佳.因此本文除了對馬可夫決策過 程之理論架構做一探討外,並利用一般均認為收斂性及效率均佳的政策改進法之 邏輯法則,以Fortrar語言撰寫程式,並以例子來加以實際執行,在程式中分為二 種選擇,使用者可在螢幕上選擇是執行長期最佳政策:亦或短期動態政策。並加 入折現率以便金錢之計算更符合實際.做為有興趣者之參考。 |
本系統之摘要資訊系依該期刊論文摘要之資訊為主。