マルコフ決定過程

マルコフ決定過程は、上の画像みたいなやつ。状態の間に行動があって、行動の後は、決まった確率に従って別の状態に映る。行動の結果次の状態に移る際に報酬がもらえる。

これは強化学習で使える。今S1の状態にいるんだけど、次何のアクションとったら一番いいすかね？という問題がわかるらしい。マルコフ決定過程だと考えると動的計画法として考えることができてベルマン方程式が適用出来て、再帰的に計算して現在取りうるべきアクションを評価できるという感じらしい。