はじめに
機械学習やディープラーニングの分野では、「過学習(オーバーフィッティング)」が大きな課題となる。
G検定でも、過学習を防ぐ方法として頻出なのが「正則化(Regularization)」というテクニックだ。
今回は、実際のG検定過去問を題材に、「正則化」に関する基本をおさらいしながら、ひっかけ選択肢を見抜く力を養っていこう。
問題
ディープラーニングでは過学習を抑えるテクニックの1つとして正則化があるが、正則化の種類として、最も不適切な選択肢を選べ。
選択肢
- Ridge回帰
- Lasso回帰
- Elastic Net
- Euclid距離
正解は「4. Euclid距離」
なぜEuclid距離は不適切なのか?
Euclid距離(ユークリッド距離)は、数学や機械学習の中で「2点間の直線距離」を測るために使われる。
分類問題やクラスタリングなどで距離を測る際に利用されるが、「正則化の手法」ではない。
つまり、正則化に分類される技術とは目的が異なる。
他の選択肢はすべて、重みの制御によって過学習を抑制するための明確な正則化手法だ。
他の選択肢はなぜ正解にならないのか?
| 選択肢 | 正則化との関係 | 概要 |
|---|---|---|
| Ridge回帰 | 正しい正則化手法 | L2正則化。係数の二乗和を罰則として加え、重みを滑らかに制御する。 |
| Lasso回帰 | 正しい正則化手法 | L1正則化。係数の絶対値の和を罰則として加え、スパースなモデル(不要な重みをゼロに)を得る。 |
| Elastic Net | 正しい正則化手法 | L1とL2を組み合わせたハイブリッド手法。Lassoの変数選択性とRidgeの安定性を両立する。 |
正則化とは何か?なぜ重要なのか?
正則化は、モデルが学習データに過剰に適合しすぎて、新しいデータに対して予測精度が下がる現象(過学習)を抑えるために導入される。
具体的には、損失関数に罰則項(ペナルティ)を加えることで、モデルの複雑さを抑える。
正則化の数式イメージ(Ridge回帰の場合)
損失関数 = 誤差 + α × (重みの二乗和)
ここで、αは正則化の強さを調整するハイパーパラメータ。
重みが大きくなりすぎないようにコントロールすることで、モデルの汎化性能が高まる。
Euclid距離と正則化の違いを整理しよう
誤答の代表として挙げられた「Euclid距離」は、以下のように正則化とは明確に異なる。
| 用語 | 役割 | 使用される場面 |
|---|---|---|
| Euclid距離 | 2点間の距離を測る | 類似度判定、k近傍法(k-NN)など |
| 正則化 | モデルの複雑さを制御する | 線形回帰、ニューラルネットの訓練時など |
この違いをしっかり理解しておくことで、選択肢に惑わされにくくなる。
実務で正則化が使われる具体例
1. 機械学習モデルの訓練
Ridge回帰やLasso回帰は、スモールデータでも安定したモデルを作成するためによく使われる。
2. ニューラルネットワークの正則化
DropoutやWeight Decayといった手法も、広義の正則化に含まれる。これにより、過学習を防ぎ、モデルの汎化性能を向上させる。
3. 特徴量選択
Lasso回帰は、重要な特徴量だけを選ぶための手法としても利用される。
これにより、モデルの解釈性が高まり、処理の高速化にも貢献する。
まとめ
G検定では、単に正しい選択肢を覚えるだけでなく、「なぜ他が間違いなのか」まで理解することが問われる。
今回の問題では、正則化の定番である「Ridge回帰」「Lasso回帰」「Elastic Net」と、正則化と無関係な「Euclid距離」の違いを見極める必要があった。
✅ 正則化とは → モデルの過学習を防ぐための技術
✅ Ridge/Lasso/Elastic Net → すべて正則化の手法
✅ Euclid距離 → 正則化ではなく、距離計算に使われる


コメント