edo1z blog

プログラミングなどに関するブログです

Sarsa

強化学習 - Python3でSarsaを使って行動価値を出す

これからの強化学習という本の31頁にのってる状態遷移グラフの行動価値をSarsaを使って出してみます。ちなみにこの本の数式誤字多くないですか??Python3で書いてみます。