以前教師あり学習の概要についての説明をしましたが、今回はさらに踏み込んで、教師有学習をビジネスに適用する際に抑えるべきポイントについて解説します。
教師あり学習はビジネス適用と極めて相性の良い、優れたAI技術である一方、抑えるべきポイントもいくつかあり、そこをうまく抑えなければ時間をかけて作った機械学習モデルが実際には使えなかったということにもなりかねません。
そこでこのブログでは、それらのポイントを明らかにするために、教師あり学習で失敗してしまう典型的なパターンとその対応方法について2回に分けてご紹介します。
失敗とは何を意味するのか?
失敗の原因を語る前に、そもそも「学習が失敗した」というのはどういう状況をさすのでしょうか?私たちの経験から、主に次の2つのパターンで「失敗した」と思うケースが多いようです。
失敗パターン1:
機械学習で分析したが、誰が見てもそうだよねという結果が出ただけで何も新しい知見が得られなかった。
失敗パターン2:
機械学習で予測をしたが、今までExcelで行っていた簡単な分析と精度が大して変わらなかった。
どうでしょうか?このどちらかに当てはまった経験はないでしょうか?
幸いにしてどちらも当てはまらないという方は以下を読む必要はありませんが、思い当たる節があるという方は是非以下をお読みいただければと思います。
それぞれのパターンで原因と対処方法が異なります。本ブログでは失敗パターン1に焦点を当てて、その要因と対応方法について解説します。
失敗パターン1:当たり前の結果がでただけで新たな知見が得られない
<原因>
実もふたもない言い方かもしれませんが、そもそも教師あり学習の適用方法が間違っている可能性が高いです。
教師あり学習は、過去の答え(目的変数)と答えに関連していると思われるデータ(説明変数)を大量に学習し、それによって答えのまだ出ていないデータでどのような答えがでてくるのかを予測するというものです。
失敗パターン1の前提として意外な説明変数が実は寄与していることがわかる、という期待があると思います。
確かにそのような発見がある可能性はありますですが、一般的にはその分野に長年従事されている方の肌感覚と同じであることが大半です。また、予測精度もベテラン従業員の方と同じ程度であることも多くあります。
それではわざわざ機械学習で予測する意味がないように感じるかも知れませんが、そうではありません。機械学習を利用することのメリットは多数あるのですが、高い精度で予測できる人との比較では主に次のようなメリットがあります。
どの要素が目的変数に影響与えているかは感覚的にわかっても、個々の項目の数字が変化した時に、どの程度目的変数に影響が出るのかを正確に予測することは至難の業です。しかしながら、その影響が正確に予測できれば、今後のビジネスの結果を確度高く予測することができます。機械学習は単にどの因子が強く結果に影響がでるのかがわかるだけではなく、将来的に具体的にどのようなビジネスの結果になるかをある程度正確に予測することができ、確度の高いビジネスのプラニングを実現することができます。
確かにベテラン社員が予測すると高い精度で予測ができることもありますが、それでは人依存の業務になってしまい、その方が異動してしまうと予測精度が急に下がってしまうという事になりかねません。機械学習で予測をすれば、ベテランであろうと新人であろうと変わらず一定の高い予測精度が担保されます。機械学習はこのように人依存によるビジネスリスクを取り払うことができます。また人による感覚と類似しているということは予測に信頼性を感じられると思います。
人による予測の別のリスクとして、特定のパターンでは高い精度で予測ができるものの、何か条件が変わったとたんに従来の経験が活きず、予測が正確にできなくなるということがあります。機械学習であれば、そのような変化があった時にも直ぐに対応することができ、潜在的な環境変化のリスクを低減することができます。(機械学習でも特定のデータパターンに適合し過ぎてしまい、別データでは予測精度がさがる「過学習」という問題がありますが、それについてはまた別に論じたいと思います)
上記から言えることは、データを分析したら何か意外な発見があるのでは?という漠然とした課題では効果を発揮するのは難しいということです。教師あり学習でビジネスで効果を出すには、そもそもどのようなビジネス課題を解きたいのか、またその結果をどう実際に活用するのかを十分検討し、行動に移すことが重要ではないかと思います。
パート2ではさらに深堀をして、失敗パターン2の「機械学習で予測をしたが、今までExcelで行っていた簡単な分析と精度が大して変わらなかった。」について解説します。
Comments