top of page

機械学習における教師あり学習とは|基本原理と活用方法を徹底解説

AIによるデータ分析の代表として「機械学習」がありますが、その中で基本的な分析手法である「教師あり学習」(Supervised learning)とは何か、どのような用途で使うことができるのかを解説します。

「教師あり学習」と対比して語られることの多い「教師なし学習」との違いについても簡単に触れます。




【目次】

・機械学習とは機械学習が注目されている理由統計処理との違い教師あり学習とは教師あり学習と教師なし学習の違い教師あり学習の基本的な仕組み教師あり学習のプロセス
     - データセットの準備
     - データの前処理
     - 目的変数と説明変数の選択
     - アルゴリズムの選択
     - モデル性能の評価
     - モデルの運用教師あり学習の主な用途
     - 金融業での主な用途
     - 小売業での主な用途
     - 製造業での主な用途教師あり学習の注意点教師あり学習を自動化するAutoML初めてAutoMLを利用するなら「DAVinCI LABS」がお勧めLABS」がお勧め


機械学習とは

(人工知能)はかなり幅広い概念で、人の脳の働きを人工的に再現することを目指した汎用型AIから、自動翻訳のように特定の業務に絞って、人間の作業を自動化することを目指している特化型AIまで様々な種類があり明確な定義は難しいのが現状です。


しかし、実際のビジネスでは特定のビジネス課題を効率よく解決する手段としてAIが使われることが多く、その中でもデータを分析して問題解決をはかる手法として機械学習が大きな注目を浴びています。


機械学習はデータを特定のアルゴリズムで学習・分析し、それにより意味を見出す手法一般をさしますが、名前の通り人間にかわり機械(コンピュータ)がデータを分析します。


最近よく耳にする「ディープラーニング」も機械学習の一種ですが、それ以外にも様々なアルゴリズムが存在します。比較的新しい技術で、今までの機械学習では扱いが難しかった画像データに適しているため「ディープラーニング」が注目を浴びていますが、「ディープラーニング」が他の手法より優れているということではありません。


どのようなデータをどう分析したいのかにより様々な方法が開発されてきたので、目的にあった手法で分析をするということが重要です。


機械学習が注目されている理由

企業が保有するデータは爆発的な勢いで増大しています。

業務プロセスのDXによるトランザクションデータ、デジタルマーケティングの普及に伴うWebアクセスデータやCRMなどの顧客データ、IoT機器の普及によるハードウェアからのデータ、インダストリー4.0に代表される生産プロセスのオンライン化、などの様々なデジタルデータが取得可能となり、またデータレイクなどのデータを運用管理するインフラが充実してきたというのが大きな理由です。


このようにデータの量及び種類が急騰しており、それらを人間が分析することは現実的には難しくなっています。そのために分析の手段として機械学習が現実解として大きな注目を浴びています。



統計処理との違い

一方でデータを分析して、意味を取り出す方法として統計の手法が多く使われてきました。

統計と機械学習は一見に似ていますが、全く異なる分析です。

統計の考え方では特定のインプット情報に対する結果の相関関係を分析します。それに対し機械学習では全てのインプットデータが結果にどう影響するのかの全ての項目の影響度合い[D2] を分析します。


例えば、商品の販売数を予測しようとした場合、統計では天気が販売数にどのように影響するか、気温がどのように影響するか、曜日がどのように影響するかを計算することができますが、天気・気温・曜日がそれぞれどのようにどの程度関係しているのかまではわかりません。


それに対し機械学習は、天気・気温・曜日(あるいはそれ以外の時間などインプットされたあらゆる情報)の影響度合いを分析し、それぞれの項目がどの程度販売数に影響するのかを算出することが可能です。


前述の通り様々なデータが入手可能となった現在、統計的な手法ではインプットとアウトプットの関係を正確に分析することが難しくなっており、その意味で機械学習が必要とされるケースが増えてきているといって良いでしょう。


教師あり学習とは

機械学習のなかでも早期に確立し、実ビジネスで活発に利用されているのが「教師あり学習」です。

「教師あり学習」は文字通り、過去のデータを教師としてデータの分析を行う方法です。

簡単に言えば、既に答え(正解)が分かっている過去データを分析し、答えを導き出すためのモデル(アルゴリズム)を作成し、そのモデルを使ってこれから起こる事を予測させる事を指します。


わかりやすい例で言えば、過去「商品A」を購入したユーザーのデータを学習し、どのようなユーザーが「商品A」を買ってくれるユーザーの属性を分析し、購入確率を計算するモデルを作る、というような使い方です。過去データから購入確率を予測するモデルを作成できれば、新たな見込みユーザーの情報を得た時に、そのユーザーがどの程度購入するかの確率を計算することができるようになります。それを活用して、購入確率の高いユーザーに優先的にアプローチを行うといった事が可能となります。


「教師あり学習」と「教師なし学習」の違い

「教師あり学習」と並んで「教師なし学習」という機械分析の手法もありますが、このふたつはこのふたつは目的も方法も異なります。「教師あり学習」が進化して、「教師なし」でも学習できるようになったということではありません。全く別の分析ですので、目的に応じて「教師あり」か「教師なし」なのかで使い分ける必要があります。


「教師なし学習」は文字通り教師、つまり正解が何かわからないデータに対する分析です。

具体的には、目的変数、つまり正解がないデータを分析し、そのなかで特定のパターンがあるのか、無いのかを分析から導き出します。


これだけではわかりにくいと思いますので、使い方の事例を挙げると、金融取引での不正検知で「教師なし学習」が使われています。取引の関する様々なデータを学習させておくことにより、通常の取引とは異なるパターンが現れた時に、不正が疑われる取引としてアラートを出すことが可能となります。


「教師なし学習」を使って取引を学習させることにより、特定のパターンに縛られずに「通常とは異なる」事を検知できるために、今までの不正とは異なる新たな不正を検知できる可能性があります。(従来の不正取引を教師データとする「教師あり学習」をした場合、過去に発生した不正以外が検知できないため、不正検知にはあまり向いていません)。


別の事例としては「顧客属性」の分析での利用があります。

どのようなユーザー属性、年齢、性別、職業、地域のユーザーを似た属性で群(クラスター)に分けて、どのようなユーザーが多いのかを分析する場合にも「教師なし」学習が使われます。


「教師あり学習」の基本的な仕組み

「教師あり学習」では、最低限「目的変数」と「説明変数」の2種類のデータが必要となります。「目的変数」はいわゆる正解データ(例えば、「商品A」を購入したかいなか)で、「説明変数」はそれ以外のデータとなります。「教師あり学習」ではそれぞれの「説明変数」がどの程度「目的変数」に影響しているのかを分析し、「説明変数」から「目的変数」を導き出すための計算式(アルゴリズム)を生成します。


機械学習の特徴として、多岐にわたる多くの「説明変数」が含まれる複雑なデータであっても、複雑なアルゴリズムを通じて、精度の高い予測モデルを作り出すことができるということが挙げられます。


「教師あり学習」のプロセス

実際に「教師あり」の「機械学習」を実行するためのプロセスを説明します。


データセットの準備

先述の通り「目的変数」と「説明変数」の含まれた過去データを用意します。

この時に留意しなければならないのは、データの種類と量です。

与えられた「説明変数」から「目的変数」を予測するモデルを作成するため、「目的変数」に影響を与える項目が含まれているかを確認する必要があります。


また、データ量が少ない場合には、精度の高いアルゴリズムが作成できない事が多いので、ある程度のデータ量が必要になります。一般的には、1000レコードあればモデルは作成できますが、10000レコード以上あるとより安定した結果を得られると言われています。


ただ、実際には分析する内容やデータによりより少ないデータ数でも高い予測結果を出した事例もありますので、上記はあくまでも目安だとお考え下さい。


また、過去のデータ全てでモデルを作成するのではなく、一部のデータは残しておき、アルゴリズムができた後に、答え合わせを行い、モデルの精度を検証する必要があります。

そのために検証用のデータも加味したデータ量が必要になります。

(検証でどの程度のデータを使うかは求める精度や内容により様々ですが一般的には20%から30%程度のデータを検証で使うことが多いようです)


データの前処理

実際のデータはそのままでは分析を正確に行う事はできないことがほとんどです。

値が入っていないセルが存在したり、何らかの理由で突発的に大きすぎたり、小さすぎたりといったデータがはいっている場合には、それらを何からの方法で補正する必要があります。


また、一言でデータといってもそれは売上のような数字の場合もあれば、地域や年代といったカテゴリーの場合もあれば、問い合わせのようなテキストの場合もあります。