top of page
執筆者の写真嘉藤田 潔

AutoMLの理想と現実|AutoML プロジェクトで失敗しないために欠かせない3つのポイント

更新日:2022年9月12日

前回AutoMLの仕組みや主要ベンターについて解説をしましたが、今回は実際にAutoMLを導入し、ビジネス課題を解決する場合に欠かせないポイントについて解説をします。


AutoMLは非常に簡単に使える便利なデータ分析ツールですが、データ分析プロジェクトのプロセスの簡略化や自動化に過ぎず、データ分析のプロジェクト全体が適切に推進されていなければ効果を発揮しないまま、時間と労力をかけて行った分析が意味のない結果を迎えてしまったということにもなりかねません。


今回はそのような失敗をしないために欠かせない重要なポイントを3点に絞って説明します。これからAutoMLの利用を計画されている方は是非参考になさってください。


機械学習を使った分析の全体像


機械学習を使ったデータ分析プロジェクトは主に6つのステップから構成されます。

  • 要件定義

  • データソーシング

  • データの前処理

  • モデリング

  • 検証・テスト

  • システム運用・維持・管理

この中でAutoMLにより自動化できるのは、「データの前処理」の一部と、「モデリング」「検証・テスト」のフェーズです。「要件定義」「データソーシング」及び「データの前処理」については人が対応していく必要があります。


機械学習がまだデータ専門家でなければできなかった時代は、主に「データの前処理」と「モデリング」に時間がかかっており、それを自動化して効率を上げるソリューションとしてAutoMLが開発されました。


データ分析で難易度の高かった「データの前処理」と「モデリング」が自動化され、データサイエンティストでないビジネスパーソンでもデータ分析ができる時代が到来し、AutoMLベンダーは「データ分析の民主化」を謳うようになりました。しかし、AutoMLによりかなりの部分がツールで処理できるようになったとはいえ、人間が考え対応しなければならない領域はまだ多くあります。


従って、データ専門家ではないビジネスパーソンがデータ分析を行う場合にはツールの導入だけではなく、下記の3つのポイントを抑えた上でプロジェクトを開始する必要があります。これらはデータ分析を活用してビジネスを改善する上で避けて通れないものであるといえます。


第1のポイント:分析テーマの立案


CRMやWebアクセス等の顧客関連データや、POSなどの売り上げ関連データあるいは工場での製造データなどのデータがあれば、それらをAutoMLで分析することは簡単にできます。そのために「まずデータを分析してみてそこから何がわかるかを見てみたい」と思われることもあるかと思います。


しかし、データ分析はビジネス上の課題を解決するための手段に過ぎないので、まず「分析をしてみる」ことによって何か有用な知見が得られる事はあまりないと言わざるを得ません。


そのために、まずデータ分析で何の課題を解決するのか、そして分析した結果をどのようにビジネスプロセスに組み込んでいくのかを検討する必要があります。


また、ビジネス課題が明確であったとしても、それを解決するためには何のデータをどのように分析するのかが明確でなければ、分析のプロジェクトを開始することができません。


このビジネス課題から分析テーマに落とす工程は難しいのですが、データ分析プロジェクトで最も重要な要素でもあると言えます。


ビジネス課題から分析テーマに落とすには課題の要因分析を行い、要因を解決するための仮説を立てた上で、解決手段を実現する方法として機械学習による分析を行うというのが正しい手順となります。


例えば、売上が停滞しているという事がビジネスの課題である場合、販売数が伸びていないのか、顧客毎の購入金額が伸びていないのか、あるいは顧客数が伸びていないのかによって打ち手が変わってくると思います。


販売数が伸びていないことが要因であれば、購入確率の高い顧客にアプローチを行うために、購入顧客の特性を分析するという機械学習テーマになりますし、顧客毎の購入金額が伸びていないのであれば、ロイヤルカスタマーへのアプローチを強化するためにロイヤルカスタマーとなる可能性の高い顧客を予測するという機械学習のテーマ、顧客数が伸びていない要因として離脱するユーザーが多いのであれば離脱ユーザーを予測するという機械学習テーマとなります。


上記は非常に単純な例ですが、そこからわかる通り、ビジネス課題→要因分析→対策の仮説までできた上で、初めて機械学習が有効に実務活用できるということはおわかりいただけるのではないでしょうか?


第2のポイント:有効なデータの収集


分析テーマを正しく立案できた次にポイントとなるのがデータの収集です。

機械学習とは本質的には、データの中に隠れている傾向を読みとき、データから求める結果(販売、解約、故障など)を導き出すモデルを作成するということです。


従って、分析するデータの中に、求める結果を生み出す要因となる情報が含まれていることが前提となり、データにそのような要因が欠落している場合には、精度の高いモデルを作成することができません。


しかしながら、どのようなデータが結果にどのように関連しているのかを事前に知ることが難しく、そのために機械学習を使った分析を行い、データと結果の関係性を導き出します。


一方で、データの種類がどれだけ多くても、正確に関係性を考慮したモデル化ができるという点が機械学習の特徴でもあるので、できるだけ多くのデータを集め、モデルを作成してみて、その精度から分析したデータが十分なのかを判断することになります。


出来あがったモデルの精度が期待通りでない場合、分析に使用したデータを見直す必要がありますが、次の3つが主なデータの見直しの方法となります。


データ項目(特徴量)の追加

単純に分析に使用したデータが予測結果を算出するための関係性を持った要素を十分含んでいないということが考えられます。この場合には、再度全体のビジネスプロセスを見直し、足りないデータ項目(機械学習の用語で「特徴量」と言います)がないか検証、不足しているデータ項目が見つかった場合、再度それを加えてモデルを構築しなおし、精度が向上したか、期待通りになったかを確認します。


項目の削減

上記とは逆に、結果に関係しない要素があまりに多い場合、それらのデータがノイズとなり精度を下げている可能性がありますので、モデルを見直し、あまり重要ではないデータ項目

は取り除いてモデルを構築することにより精度があがる場合もあります。

(データ項目が数百種類以上あるような場合、データ項目の種類が多すぎると疑っても良いかもしれません)


データ項目を組み合わせた新たなデータ項目の作成

データ項目の種類が十分あり、結果につながる要素を含んでいたとしても、データ項目がその要素を十分に表しきれていないというケースも多々あります。


例えば、来店確率の高いユーザーを予測するモデルを作ろうとした場合、分析する元のデータとして次のような項目があったとします。


・顧客ID

・来店日

・購入品目

・購入点数

・購入金額


しかし、来店するかどうかについては、上記だけではなく、品目毎の平均購入額がいくらか、ということが要因として大きい場合にはこのデータだけでは不十分です。


この場合には、上記の購入品目と来店日ごとの購入金額から、あらたに「品目毎の平均購入金額」というデータ(機械学習の用語では説明変数)を作成することができ、この「品目毎の平均購入金額」という新たなデータを取り入れてモデル構築を行うことにより、モデルの精度が向上することが期待できます


第3のポイント:モデルの改善とビジネスプロセスへの組み込み


第1と第2のポイントをクリアすることができれば、AutoMLでモデルの構築は簡単にできます。しかしながら、モデルでの予測結果が期待通りではないということも往々にしてあります。そのような場合、第2のポイントで説明したようにデータの見直しを行い、精度を上げていくことになります。そして期待した精度が出れば、晴れてビジネスプロセスに組みこんで実際の業務改善を行うことが可能となります。


ここで留意すべき第3のポイントがあります。


モデルの精度が良い、悪いと書きましたが、AutoMLツールでは下記のような独自の指標で精度の良し悪しを判断します。(それぞれの指標の意味については別のコラムで説明予定です)

・Gini

・MSE

・MAE

・GD

・K-S


どの指標を使って評価をするのか、あるいはどの程度の数値であれば実用に回すのかについての指針を持っていないと、結果が出ても判断がつかないという事にもなりかねません。


また、これらの精度指標が良いものが必ずしもビジネスの結果として良いわけではないということも留意する必要があります。


例えば、製品購入確率を予測するモデルを作成した場合、それぞれの顧客の購入確率と同時に購入金額も考慮しなければビジネスパフォーマンスを最大化することができません。単に購入確率だけを考慮した指標を選択してしまうと、購入確率はそこまででもないが購入金額は高い顧客があまり考慮されないモデルを選択されず、結果として売上が最大化されない可能性があります。


従って、モデルによる予測結果をどう活用するのか、そのために重視するべきKPIは何なのか、これらを考慮した上でモデルを選択する必要があるのですが、AutoMLの精度指標だけではそれを判断することは難しく、さらにビジネス結果に変換する作業を行った上、再度どの指標を選択したときにビジネス結果が最良なのかを見る必要があると言えます。


3つのポイントへの対応方法


AutoMLにより分析とモデル作成が簡単にできるようになり、データサイエンティストではないビジネスパーソンでも機械学習を活用できる「データ分析の民主化」の時代とはなりました。


一方で、これらの3つのポイント(「分析テーマの立案」「有効なデータの準備」「モデルの改善とビジネスプロセスへの組み込み」)を押さえて、初めて真のビジネス改善に結びつくデータ分析ができると言えます。


従って、逆説的ですがデータ分析で効果を出すためにはAutoMLで自動化される以外の要素がより重要になってきています。


初めてデータ分析に取り組む場合、これらの3つのポイントを自力でクリアするのは難しいかも知れません。従って、ある程度の経験と知見を蓄積するまでは、データ分析の専門家にコンサルティングを依頼するのが現実的な解決方法である事が多くあります。


AutoMLの導入を計画されている場合、これらの3つのポイントについて自社で対応できるのはどこまでで、自社だけでは解決できないのは何かを明確にし、自社だけでは解決できないポイントについては専門家によるコンサルティングも考慮することをお勧めします。


Ailysでは機械学習ソリューションであるDAVinCI LABSの提供に留まらず、機械学習のテーマ立案から、ビジネスへの適用やモデル運用まで、ワンストップでコンサルティングも提供しています。ご興味があれば、こちらのフォームよりお問い合わせ下さい。

Comments


bottom of page