強化学習全然うまくいかなくて凹んでたんですが、下記のグラフはなんかちょっと学習してる感あるなあと思いました。2月13日のデータを相変わらず学習に使っていますが、20万エポックやると最初とは明らかにrewardの大きさが変わったので、これはまさか…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。