BTCFXの約定データで強化学習してみる（5）

強化学習全然うまくいかなくて凹んでたんですが、下記のグラフはなんかちょっと学習してる感あるなあと思いました。２月１３日のデータを相変わらず学習に使っていますが、２０万エポックやると最初とは明らかにrewardの大きさが変わったので、これはまさか学習できてるのではないかと思ったわけです。２０万トレーニング後のテストでも全部プラスで最初の学習時よりも全然大きいrewardだったんです。

ギザギザバージョン f:id:edo1z:20190311181348p:plain

スムースバージョン f:id:edo1z:20190311181358p:plain

今３月１１日なのですが、２月１３日データで学習した上記モデルで実践投入してみようと思ってやってみました。結論的にはまじで最悪でした。非常に残念です。まずやはり、成り行きでポジ解除する際のダメージが大きすぎるのと、それを過小評価しすぎた環境でトレーニングしたものですから、簡単に成り行き損切が実行されることになり、一瞬のうちに成り行き損切による大損が発生いたしました。売買ポイントとしては、上がったら売って、下がったら買ってる感はありました。それだけに、落ちるナイフを掴みまくって死亡していました。

f:id:edo1z:20190311192032p:plain

次にやりたいのは、下記でしょうか。

２月１３日以外のデータでバックテストしてみる
成り行き損切のダメージをもうちょっと大きくして学習してみる
３月１１日のデータでも学習してみる
成り行き損切をしないトレード方法（両方に指しちゃって損切しないとか、片方ずつだけど損切はしないとか）に変えてみる

ちなみに、30秒に1回トレードする（何もしないこともある）ことになってまして、1エポックあたり200ステップでやっております。で、上のグラフは20万エポック後に平均で800円になってるんですけど、っていうことは、1.2万円幅／日くらいになるのかなあと思いまして、もしサイズを0.2で売買すると、2400円くらいの粗利的なイメージになるのかなあと考えると、非常に残念なチャレンジだなあと思ってしまいます。平均800円というのは、1ステップ4円ということです。非常に少ないですね。でもトレードしないときもあるので、5割トレードしたとすると、8円くらいです。少ないですけど、負けることもあるわけです。勝率６割だとすると、適当な計算で40円とかかなあと思いました。まあ何と言うか結構そこそこな金額な気はします。

つまり、仮にかっこいいグラフがつくれたとしても、そもそも、上記のモデルじゃだめで、やっぱり５秒に１回にするとか、損切細かくしながら利益を伸ばすとかしないとだめなのかなーと思いました。５秒に１回だと余計に１ステップあたりの値幅は減るでしょうから、微妙かな。

とはいえ、これはまさしく素人の適当な計算です。バックテストすらまともにしたことがありません。次はやっぱりそもそも論としてバックテスト環境を整備してみようと思います。たぶん。