機械学習で株トレードを目指す（データ前処理について）

レイヤーつくってグルグル学習させればよいという訳ではないらしい。
データの前処理が予測精度に直結するらしいので整理してみます。

データの前処理とは
データのスケールを合わせる
スケールを合わせる手法

データの前処理とは

大きく分けると
・きちんとしたデータを集める
・データの内容を精査する
・データのスケールを合わせる
の3つになる模様。
今回は株価を対象とするので、そんなに大きくずれることは無いと思ってます。

データの精査については、ノイズなどのゴミデータ削除もあるらしいけど、個人的にはノイズはノイズとして扱った方が良いと考えています。
プログラムに食わせるデータの種類は考慮しますが、データの内容については人間が手を加えない方が良いのではないかと思ってます。
人間では気づけない法則をプログラムで見つけることを目的とするのであれば、人間の価値観で「このデータはおかしい」と判断するのはルール違反だと思ってます。

データのスケールを合わせる

入力データとして、複数データを扱う場合は数値のスケールを合わせた方が良い結果が出る模様。
大抵は「0~1」「-1~1」の間に収めるように値を変換するそうです。
株価の場合は「日経平均」の価格と「各企業の株価」は大きな差がある場合があります。
日経平均は2万円前半の値で推移していますが、各企業の株価は1万円のものもあれば、何十万円のものもあります。
ここのスケールを合わせないと「日経平均の値が影響を与えすぎる」「企業の株価が影響を与えすぎる」という問題が起きてくる模様。
数値が大きい方が影響度が大きいのでスケールを合わせて「平等」に扱えるようにすることになります。