はじめに
機械学習の基本概念のひとつに「分類問題」と「回帰問題」の区別がある。これは、G検定をはじめとするAI関連資格試験において頻出のテーマだ。
しかし、この違いを正しく理解しているだろうか?中でも「ロジスティック回帰」が分類問題で使われるアルゴリズムであることを知らず、誤って回帰問題と考えてしまうケースも少なくない。
本記事では、G検定の過去問を振り返りながら、分類問題と回帰問題の違いについて整理する。
分類問題と回帰問題の違い
機械学習のタスクは大きく 「分類問題」 と 「回帰問題」 に分けられる。
タスク | 目的 | 出力の種類 | 代表的なアルゴリズム |
---|---|---|---|
分類問題 | データをカテゴリに分類する | 離散値(0, 1, A, B, Cなど) | ロジスティック回帰、決定木、SVM(分類)、ランダムフォレスト |
回帰問題 | 数値を予測する | 連続値(気温、売上、価格など) | 線形回帰、決定木(回帰)、SVM(回帰)、ランダムフォレスト |
分類問題では、データをカテゴリ(クラス) に分けるのが目的であり、出力は 離散的な値 になる。
一方、回帰問題は数値を予測するタスクであり、出力は 連続的な値 だ。
例えば、「メールがスパムかどうかを判定する」は分類問題、「家の価格を予測する」は回帰問題に分類される。
問題
実際のG検定で出題された問題を見てみる。
機械学習では分類問題と回帰問題を扱うモデルがあるが、回帰問題として、最も不適切な選択肢を選べ。
選択肢
- ロジスティック回帰
- 線形回帰
- サポートベクトルマシン(SVM)
- 決定木
正解は「1. ロジスティック回帰」
なぜロジスティック回帰が不適切なのか?
ロジスティック回帰(Logistic Regression)という名前には「回帰」とついているが、これは分類問題のアルゴリズム である。
ロジスティック回帰の特徴
– 出力が0または1の確率(確率値を閾値で分類)
– 連続値を出力するのではなく、確率を基にクラス分類を行う
– 「回帰」と名前がついているが、実際には分類アルゴリズムとして使用される
例えば、「このメールはスパムかどうか?」といった2値分類問題(0/1)では、ロジスティック回帰がよく使われる。
そのため、「ロジスティック回帰を回帰問題の手法として分類するのは誤り」だ。
他の選択肢はなぜ回帰問題に適しているのか?
では、他の選択肢についても確認しよう。
✅ 線形回帰(Linear Regression) → 回帰問題に適している
線形回帰は、入力データと出力データの間に線形な関係があると仮定して、連続値を予測する手法 だ。
例えば、「広告費を入力すると売上がどのくらいになるか?」といったケースでは、線形回帰が適用される。
公式:
[
y = ax + b
]
このように、数値を予測するために用いるので、回帰問題として適切である。
✅ サポートベクトルマシン(SVM) → 分類にも回帰にも使える
SVM(Support Vector Machine)は、一般的に分類問題で使われるが、回帰にも対応できる(SVR: Support Vector Regression)。
回帰問題では、サポートベクトル回帰(SVR) という形で、誤差を最小限に抑える超平面を見つける手法として用いられる。
✅ 決定木(Decision Tree) → 分類にも回帰にも使える
決定木は、分類問題と回帰問題の両方に対応する アルゴリズムだ。
– 分類問題 → 分類木(Classification Tree)
– 回帰問題 → 回帰木(Regression Tree)
例えば、「天気と気温のデータをもとに、翌日の気温を予測する」といったケースでは、回帰木(Regression Tree) が利用される。
実務での分類・回帰問題の活用例
✅ 分類問題の活用例
- スパムメール分類 → ロジスティック回帰やSVM
- 画像認識(犬か猫か) → CNNや決定木
- 医療診断(病気の有無) → ロジスティック回帰
✅ 回帰問題の活用例
- 売上予測 → 線形回帰
- 気温予測 → 決定木(回帰木)やSVM(SVR)
- 住宅価格予測 → 線形回帰やランダムフォレスト
まとめ
G検定では、「分類」と「回帰」の違い を正確に理解することが重要だ。
試験対策ポイント:
✅ ロジスティック回帰は分類問題のアルゴリズムである(名前に「回帰」とついているが注意)
✅ 線形回帰、決定木(回帰)、SVM(SVR)は回帰問題に適している
✅ 分類問題と回帰問題の適用例をイメージできるようにする
試験だけでなく、実務でも活用できる知識なので、しっかりと押さえておこう!
コメント