DEV

BTCFXの約定データで強化学習してみる (6)

モデルを一部修正して、3月9日の約定データで20万エポック学習してみました。修正点は、報酬は700円幅まで返すようにしました。これでより成り行き損切りのスリップがrewardの値に影響するのかなと思います。あとは、損切の値幅から50円をなくして、最小で100円にしてみました。あとは、成り行き損切した場合、損失額はスリップにより倍になる設定してます。100円幅で損切したら無条件で200円幅の損切になります。こんなので勝てたら神だと思うんですが。まあこんなことやりつつコードにバグがある可能性ありますから。とりあえず下記のように成績が悪くない。疑わしい。ただ、この前も学習してるっぽいとかいいましたし、実際学習してるっぽいんですけど、ものすごい勢いで上ブレ、下ブレしてる中での平均値上昇になりますので、数時間実践投入してダメなのは当たり前かもしれない。ものすごい勢いで上下にぶれながらなんか儲かったみたいなグラフになるのかもしれない。

f:id:edo1z:20190312081431p:plain

smoothing 0.75

f:id:edo1z:20190312081955p:plain

smoothing 0.95

f:id:edo1z:20190312082014p:plain

保存されたモデルとかweightを使って、学習を続きから再開する方法は、普通に読み込んで学習すればいいのかな?? 一応続けて学習したつもりですが、追加で20万エポック学習してみました。これも3月9日データです。

f:id:edo1z:20190312112204p:plain

smoothing 0.75

f:id:edo1z:20190312112234p:plain

smoothing 0.95

f:id:edo1z:20190312112244p:plain

では次に、3月11日データで40万エポック続きから学習してみます。

f:id:edo1z:20190312172753p:plain

smoothing 0.75

f:id:edo1z:20190312172656p:plain

smoothing 0.95

f:id:edo1z:20190312172707p:plain

結局平均で800円程度を上回るのは中々難しいんだろうなあ。数千円の利益を出していい感じだと思いきや、マイナス数千円もあるので、微妙ですし、それぞれ200ステップの平均・合計を出してるわけで、その間に上下にものすごいぶれております。あとは、この報酬計算ロジックと、今使っているBOTの動きが一致してないという懸案もあります。。とりあえず、改めて進化を遂げた頭脳で自動売買をしてみたいと思います。

f:id:edo1z:20190312231840p:plain

リアルに、上下を行ったり来たりしました。定期的にプラマイ0に戻ってくる感じですね。。。。。