はじめに

機械学習やディープラーニングの分野では、「過学習（オーバーフィッティング）」が大きな課題となる。
G検定でも、過学習を防ぐ方法として頻出なのが「正則化（Regularization）」というテクニックだ。

今回は、実際のG検定過去問を題材に、「正則化」に関する基本をおさらいしながら、ひっかけ選択肢を見抜く力を養っていこう。

Contents

問題
1. 選択肢
2. なぜEuclid距離は不適切なのか？
他の選択肢はなぜ正解にならないのか？
正則化とは何か？なぜ重要なのか？
1. 正則化の数式イメージ（Ridge回帰の場合）
Euclid距離と正則化の違いを整理しよう
実務で正則化が使われる具体例

問題

ディープラーニングでは過学習を抑えるテクニックの1つとして正則化があるが、正則化の種類として、最も不適切な選択肢を選べ。

選択肢

Ridge回帰
Lasso回帰
Elastic Net
Euclid距離

正解は「4. Euclid距離」

なぜEuclid距離は不適切なのか？

Euclid距離（ユークリッド距離）は、数学や機械学習の中で「2点間の直線距離」を測るために使われる。
分類問題やクラスタリングなどで距離を測る際に利用されるが、「正則化の手法」ではない。

つまり、正則化に分類される技術とは目的が異なる。
他の選択肢はすべて、重みの制御によって過学習を抑制するための明確な正則化手法だ。

他の選択肢はなぜ正解にならないのか？

選択肢	正則化との関係	概要
Ridge回帰	正しい正則化手法	L2正則化。係数の二乗和を罰則として加え、重みを滑らかに制御する。
Lasso回帰	正しい正則化手法	L1正則化。係数の絶対値の和を罰則として加え、スパースなモデル（不要な重みをゼロに）を得る。
Elastic Net	正しい正則化手法	L1とL2を組み合わせたハイブリッド手法。Lassoの変数選択性とRidgeの安定性を両立する。

正則化とは何か？なぜ重要なのか？

正則化は、モデルが学習データに過剰に適合しすぎて、新しいデータに対して予測精度が下がる現象（過学習）を抑えるために導入される。

具体的には、損失関数に罰則項（ペナルティ）を加えることで、モデルの複雑さを抑える。

正則化の数式イメージ（Ridge回帰の場合）

損失関数 = 誤差 + α × (重みの二乗和)

ここで、αは正則化の強さを調整するハイパーパラメータ。
重みが大きくなりすぎないようにコントロールすることで、モデルの汎化性能が高まる。

Euclid距離と正則化の違いを整理しよう

誤答の代表として挙げられた「Euclid距離」は、以下のように正則化とは明確に異なる。

用語	役割	使用される場面
Euclid距離	2点間の距離を測る	類似度判定、k近傍法（k-NN）など
正則化	モデルの複雑さを制御する	線形回帰、ニューラルネットの訓練時など

この違いをしっかり理解しておくことで、選択肢に惑わされにくくなる。

実務で正則化が使われる具体例

1. 機械学習モデルの訓練

Ridge回帰やLasso回帰は、スモールデータでも安定したモデルを作成するためによく使われる。

2. ニューラルネットワークの正則化

DropoutやWeight Decayといった手法も、広義の正則化に含まれる。これにより、過学習を防ぎ、モデルの汎化性能を向上させる。

3. 特徴量選択

Lasso回帰は、重要な特徴量だけを選ぶための手法としても利用される。
これにより、モデルの解釈性が高まり、処理の高速化にも貢献する。

まとめ

G検定では、単に正しい選択肢を覚えるだけでなく、「なぜ他が間違いなのか」まで理解することが問われる。
今回の問題では、正則化の定番である「Ridge回帰」「Lasso回帰」「Elastic Net」と、正則化と無関係な「Euclid距離」の違いを見極める必要があった。

✅ 正則化とは → モデルの過学習を防ぐための技術
✅ Ridge/Lasso/Elastic Net → すべて正則化の手法
✅ Euclid距離 → 正則化ではなく、距離計算に使われる

正則化とは？“ひっかけ問題”の見抜き方を徹底解説【G検定対策】