メインコンテンツへジャンプ

Machine Learningとディープラーニングの違い

基本的な違いと、それぞれがAIのどこに当てはまるかを理解します。

AI、機械学習、DL の階層構造を理解する

人工知能(AI)の広大な世界では、machine learningとディープラーニングの概念が混同されがちです。AI とは、人間のような意思決定を必要とするタスクを実行するインテリジェントなシステムを構築する、広範な分野のことです。機械学習(ML)とは AI の一種で、システムがヒストリカルデータを取り込むことでパターンを学習し、あらゆるルールを明示的にプログラムされなくても意思決定を行うものです。ディープラーニング(DL)とは、多層ニューラルネットワークを使用して大規模なデータセットから自動的に学習し、複雑な知覚や言語の問題を解決する、machine learningの特殊なサブセットです。

以下の階層は、AI、機械学習、DL の関係性を説明するものです。

人工知能 (AI) ルールとロジック

 └── Machine Learning (ML) は、ルールを経験で置き換えます

└── ディープラーニング(DL)自動学習

機械学習とDLはAIを実現するためのアプローチです。実際、今日のほとんどのAI製品は、MLシステム、ディープラーニングモデル、またはMLを活用したデータパイプラインです。

観点AIMLDL
テクニックルール、ロジック、検索統計モデルNeural Network:
ニューラルネットワーク
データ要件中小規模のデータセット中小規模のデータセット非常に大きなデータセット
必要な学習常にそうとは限りません常に常に
適応性静的なことが多いデータ量が増えるほど改善されますデータ量が増えるほど改善されます
コンピュートのニーズ低~中程度中程度
最適な用途推論、制御構造化データ非構造化データ
計画、意思決定推薦エンジン視覚、音声、言語

Databricks についてさらに詳しく

Machine Learningとは?

機械学習は、コンピュータにデータからパターンを学習させ、そのパターンを使って予測や決定を行うことで機能します。明示的なプログラミングなしで、経験によって改善します。データは機械学習の燃料です。システムに回答させたい問題や質問から始まり、収集・正規化されたデータをモデル(入力を出力に対応付けるアルゴリズム)で使用します。各モデルには、データから学習したパラメータと、人間が選択したハイパーパラメータがあります。

一般的な機械学習モデルには、次のようなものがあります。

  • 線形回帰: 従属変数(予測したいもの)と 1 つ以上の独立変数(入力)の関係を、データに直線(または超平面)を当てはめることによってモデル化する機械学習アルゴリズムです。このモデルは、初期係数なしで予測を行い、予測と実際の値との間の誤差を測定し、誤差を最小化するように係数を調整することで学習します。
  • 決定木: データから一連のif-thenルールを学習し、特徴量に基づいてデータを枝分かれさせて木のような構造を形成することで予測を行う機械学習アルゴリズムの一種。各質問が決定ノードとなり、各回答が分岐をたどって、最終的にリーフノードが最終予測を行います。
  • ランダムフォレスト: 複数の決定木を組み合わせて、より正確で安定した予測を行うモデル。それぞれの木が異なるデータサンプルでトレーニングし、最終的な予測は、最も良い出力の平均または多数決によって決まります。
  • サポートベクターマシン(SVM): 分類と回帰に使用される機械学習モデルの一種で、データポイントを異なるクラスに分離する最適な境界を見つけます。

機械学習モデルは、特徴量エンジニアリング(生データをモデルにとって有用なシグナルに変換するプロセス)によって、より効果的にパターンを学習します。特徴量とは、モデルで使用される入力変数(数値、カテゴリ、日時、テキスト)です。優れた特徴量は、精度と解釈可能性を向上させ、トレーニング時間を短縮できます。

機械学習の 4 つのタイプ

  • 教師あり学習: ラベル付きデータ(入力特徴量と正しい出力の両方を含むデータ)を使用してモデルをトレーニングする機械学習の手法です。モデルにはマッピングを学習するために例が示され、正解が与えられます。一般的な教師あり学習のタスクには、分類(迷惑メールか否か、病気の有無など)や回帰(価格予測、売上予測など)が含まれます。
  • 教師なし学習: モデルが、事前に定義された答えのないラベルなしデータからパターンを見つけて学習する機械学習。類似したデータポイントをグループ化したり、特徴量の数を減らしたり、異常なデータポイントやまれなデータポイントを見つけたり、変数間の関係を見つけたりすることで、パターンを発見できます。実世界の例には、顧客セグメンテーションや異常検知などがあります。
  • 半教師あり学習: 少量のラベル付きデータと大量のラベルなしデータを組み合わせてモデルをトレーニングする機械学習のアプローチです。ラベル付きデータが学習の基盤となり、ラベルなしデータが決定境界の精密化に役立ちます。このアプローチは、画像分類、医療診断、音声認識で一般的に使用されます。
  • 強化学習: ラベル付きの例から学習するのではなく、エージェントが環境と相互作用し、行動を起こして報酬またはペナルティを受け取ることで学習する試行錯誤の機械学習です(例: ゲームプレイ、ロボット工学)。

深層学習とは

ディープラーニングは、多層の人工ニューラルネットワークを使用して、大量のデータから複雑なパターンを自動的に学習する機械学習のアプローチです。人間の脳のニューロン構造を模倣しているため、ニューラルネットワークと呼ばれています。これは、AI システムを構築するための最も強力なアプローチの 1 つです。

ディープラーニングでは、人間が学習対象の特徴量を設計するのではなく、モデルが多数のニューラルネットワーク層を使用して生データから直接表現を学習します。これらの層は特徴量の階層を構築し、入力層、複数の中間層、出力層で構成されます。各層は重みを適用し、バイアスを加え、非線形活性化関数を通過させます。

一般的なニューラルネットワークの種類

  • フィードフォワード ネットワーク: これらは最も単純なニューラル ネットワークであり、ニューラル ネットワークの基本的なアーキテクチャです。データは入力層から隠れ層、出力層へと一方向に流れるため、構造化データ、回帰、分類に最適です。
  • 畳み込みニューラルネットワーク(CNN):グリッド状のデータに特化したネットワーク。畳み込みフィルターを使用して、エッジや形状などのパターンを検出します。画像認識やコンピュータビジョンのタスクに最適です。
  • 回帰型ニューラル ネットワーク(RNN): 隠れ状態を維持するフィードバック ループを持つネットワークで、テキスト生成、音声認識、時系列予測などのシーケンシャル データ用に設計されています。
  • 敵対的生成ネットワーク(GAN): 互いに競合する 2 つのニューラルネットワークをトレーニングすることで、新しいリアルなデータを生成するために使用されます。一方のネットワークが偽のデータを作成し、もう一方がそれを検出しようとすることで、両者は競い合いながら向上します。例としては、画像、音声、動画の生成が挙げられます。

Machine Learningとディープラーニングの類似点

ディープラーニングは機械学習のサブセットであるため、機械学習とDLはどちらもAIの傘下に入り、密接に関連しています。それらは多くの基本原則、ワークフロー、目標を共有しています。どちらもデータからパターンを学習し、そのデータに基づいて予測や意思決定を行うことを目的としています。

どちらもデータから学習する際、反復的な学習プロセスでより多くのデータを見ることでパフォーマンスを向上させることができます。また、どちらもそのデータから、これまで見たことのない新しいデータに汎化することができます。機械学習とDLはどちらも、ヒストリカルデータでのトレーニング、パラメーターを調整するための検証、未知のデータでのテストを必要とします。

そして、どちらも分類、回帰、クラスタリングの問題に適用できます。

データ要件と特徴量エンジニアリング

machine learningとディープラーニングには多くの類似点がありますが、データの要件と特徴エンジニアリングの労力が異なります。ML は多くの場合、小中規模の構造化データセットでうまく機能しますが、そのパフォーマンスは特徴量の質に依存します。関連する変数を特定するためには、人間が主導する特徴量エンジニアリングが必要になります。

DL は大量の非構造化データ(画像、テキスト、音声)に依存し、人間の介入を最小限に抑えて自動的な特徴抽出を行うため、サンプルの規模がパフォーマンスに直接影響します。

機械学習ではドメイン知識と特徴量の質が不可欠ですが、DL ではモデルが内部で特徴量を学習するため、データ規模とインフラストラクチャがより重要になります。

計算能力とトレーニング時間

機械学習とDLは、システムのコスト、イテレーション速度、製品の実現可能性に最も影響を与える要因であるため、両者に必要なコンピュート要件とトレーニング時間を比較することは有益です。従来の機械学習モデルは比較的少ないメモリを搭載した標準的なCPUで実行できますが、DLでは効率的なトレーニングのために大容量のメモリを搭載したGPUまたはTPUが必要です。そのため、インフラコストはDLの方が高くなります。

ML モデルは迅速なイテレーションと実験のためにすばやくトレーニングできますが、DL モデルは複雑で多層的なアーキテクチャのため、より長いトレーニング時間を必要とします。そのため、DL ではトレーニング費用、インフラストラクチャ、エネルギー、複雑さが増大しますが、ML は大規模な問題ではパフォーマンスを発揮できない可能性があります。

解釈可能性と透明性

machine learningとディープラーニングを比較する際に考慮すべきその他の要因として、解釈可能性 (モデルが予測を行った理由を人間がどれだけ容易に理解できるか) と透明性 (モデルの内部ロジックと意思決定プロセスがどれだけ可視化され、説明可能であるか) があります。

機械学習モデルは透明性が高く、解釈しやすいように設計されていることが多く、特徴量の重要度を示し、段階的な推論を可能にします。例えば、決定木のif-thenルールは人間が判読可能であり、線形回帰の係数は特徴量の直接的な影響を示し、線形回帰のオッズ比はその影響を説明します。

透明性の観点から見ると、DL モデルはより「ブラックボックス」のように機能します。明示的なルールや人間が設計した特徴には依存しません。何百万ものパラメータを含み、階層的で分散した表現を学習するため、どの特徴が予測の原因であるかを理解することが困難です。

解釈可能性は監査にとって重要であり、重大な決定が日常的に行われ、信頼が不可欠な医療、金融、法律などの規制された業界では極めて重要になります。

Machine Learningはいつ使うべきか

一般的な指針として、固定ルールでは定義しにくいデータ パターンを含む明確な問題があり、ディープラーニングが不要または非効率な場合に機械学習を使用します。機械学習 は、ビジネス データ(売上予測、財務メトリクス、顧客記録)のように、データが構造化されており、データセットが小規模から中規模の場合に適しています。

機械学習は、コンピュート予算が限られており、迅速なイテレーションが重要な場合(不正検出、クレジットスコアリング)や、解釈可能性と説明可能性が求められるアプリケーション(金融、ヘルスケア、保険、法務)で効果的です。

ディープラーニングを使用するタイミング

DL は、GPU や TPU を利用でき、それをサポートする時間がある場合に、大量の多様な非構造化データに含まれる複雑なパターンの問題で優れた性能を発揮します。DL は、従来の機械学習ではモデル化が困難な入力(画像、動画、音声)に最適です。手動での特徴量設計が困難または不可能であっても、生データに有用なシグナルが含まれている場合に DL は必要とされます。DL は、解釈可能性やコストよりも精度が重要で、システムがより長いトレーニング サイクルを許容できる場合にも適しています。

DL は、事前トレーニング済みモデル (画像認識、物体認識) からの転移学習が利用可能で、問題が知覚や言語 (コンピュータ ビジョン、音声認識、自然言語処理、自動運転車、ロボット工学) に関わる場合に特に効果的です。

実世界の AI の例

ChatGPTはAIですか、それとも機械学習ですか?答えは、はい、その両方です!

機械学習 と DL はどちらも AI の一種であり、DL は 機械学習 のサブセットであることを覚えておいてください。実は、ChatGPT は非常に大規模なトランスフォーマーニューラルネットワークで構築されたディープラーニングモデルです。GPT (Generative Pre-trained Transformer) は、数百万から数十億のパラメータと膨大な量のトレーニングデータで構成されています。

DALL-E や Midjourney のような人気の画像生成システムは、ディープ ニューラル ネットワークを使用して構築された拡散モデルであるため、どちらも DL のカテゴリに分類されます。どちらも、テキストプロンプトから画像を生成するための大規模なトレーニング、集中的な計算、そして表現学習を必要とします。

Netflix や Spotify がおすすめを提案する際、従来の機械学習モデルと、連携して機能する DL モデルを組み合わせて使用しています。これらのシステムは、ユーザーの行動、コンテンツの属性、両方にまたがる類似性を分析し、どのコンテンツを、どの順序で、どのユーザーに表示するかを決定します。機械学習 は、ランキング、パーソナライズ、A/B テストに使用されます。DL は、ユーザーの好みのモデリング、コンテンツの理解、大規模なユーザーとアイテムの関係性の学習に使用されます。

AIシステムの階層において、これらの製品は次のように位置付けられます。

人工知能(AI)

 └── 機械学習 (ML)

└── 協調フィルタリングモデル(Netflix/Spotify)

 └── ディープラーニング (DL)

└── 拡散モデル(DALL·E、Midjourney)

└── Transformerモデル(ChatGPT/GPT、Netflix/Spotify)

適切なアプローチの選択: 意思決定チェックリスト

データセットのサイズ:
小規模 / 構造化 = 機械学習
大規模 / 非構造化 = DL

解釈可能性の必要性
高 = 機械学習
低 = DL でも可

利用可能な計算リソース
限定的 = 機械学習
潤沢 = DLが可能

問題の種類
表形式データ = 機械学習
画像/テキスト/音声 = DL

機械学習 と DL の学習ロードマップ

DL は 機械学習 の基礎の上に構築されているため、まずは共通の基礎から始める、実践的な学習ロードマップを以下に示します。また、具体的な方法は、解決すべき特定の問題やシステムで利用できるリソースによって決まることにも留意してください。

共通の基礎:

  • Python の基礎、NumPy、Polars/pandas などの基本的なプログラミングとデータ準備、データ可視化(matplotlib、seaborn)を学びましょう。
  • 線形代数、確率と統計、基本的な微積分などの数学の基礎を理解していること
  • データクリーニング、特徴量エンジニアリング、トレーニング、検証、テストといったデータ処理の基礎を学びます

Machine Learningパス:

  • 教師あり学習と教師なし学習、バイアスとバリアンスのトレードオフ、過学習と正則化、評価メトリクスなどのコアコンセプト。
  • 古典的な機械学習モデル(線形回帰、ロジスティック回帰、決定木、ランダムフォレスト、SVM)に焦点を当てます。
  • 主要なライブラリ(scikit-learn)
  • 特徴量エンジニアリング(カテゴリ変数のエンコーディング、スケーリングと正規化、時間ベースの特徴量や集計など)
  • 交差検証、ハイパーパラメータチューニング、特徴選択、誤差分析などのモデルのチューニングと検証の手法。
  • モデルのデプロイ、モニタリングとドリフト検出、再トレーニングパイプライン、説明可能性を含む、本番運用における機械学習タスク。

ディープラーニングパス:

  • パーセプトロン、活性化関数、損失関数、バックプロパゲーション、最適化などを含む、ニューラルネットワークの基礎
  • フィードフォワードネットワーク、CNN(画像)、RNN/LSTM/GRU(シーケンス)、Transformer(NLP、ビジョン)を中心とした、DLの主要なアーキテクチャ。
  • DLフレームワーク(Pytorch、TensorFlow、Keras)
  • トレーニング(GPUトレーニング、分散トレーニング、混合精度、転移学習)

DL は ML の基礎の上に成り立つため、最終的な目標が何であれ、まずは ML の基礎から始めることを忘れないでください。

ニーズに合わせた適切な選択

Machine learningとディープラーニングは、データの要件、計算需要、解釈可能性のニーズ、ユースケースに応じて、AI を実現するための 2 つのアプローチです。

機械学習のユースケースは、比較的小規模な表形式の構造化データセットが特徴的です。多くの場合、高い解釈可能性/説明可能性が求められ、計算要件や必要な時間が少なくて済みます。

DL のユースケースには、複雑なパターン、多様で非構造化された大量のデータが関わり、解釈可能性よりも精度が重視されます。DL モデルのトレーニングには、はるかに大規模なコンピュート インフラストラクチャと多大な時間が必要となります。

最適な選択は、特定の課題と利用可能なリソースによって決まります。どちらの技術も進化し続けており、より少ないメモリで動作する堅牢なモデル アーキテクチャ、効率的なトレーニング、優れた評価やテストなどが登場しています。AIの分野では、機械学習、DL、ルールをハイブリッドシステムで組み合わせるという融合が進んでいます。新しいアプリケーションや規制、ガバナンスの要求も、モデルの構築方法とデプロイ方法に影響を与えるでしょう。

機械学習がDLに取って代わることはありません。どちらも並行して進化し続けています。

    用語集に戻る