はじめに

機械学習の分野では、データの次元が増えるほど計算コストが上がり、モデルの学習が難しくなることがある。この問題を解決するために「次元削減」が用いられる。その中でも代表的な手法が「主成分分析（PCA: Principal Component Analysis）」だ。

G検定でも頻出のテーマであり、機械学習の実務でも活用されるため、しっかりと理解しておきたい。今回は、G検定の過去問をもとに、主成分分析の基本と活用方法について解説する。

Contents

主成分分析（PCA）とは？

主成分分析（PCA）は、データの相関を考慮しながら、情報をできるだけ維持したまま次元を削減する手法だ。
高次元のデータを低次元に圧縮することで、以下のようなメリットが得られる。

✅ 計算コストの削減 → 高次元のデータを扱うと計算量が増えるが、次元を減らすことで処理を軽くできる。
✅ ノイズの除去 → 重要な情報を残しつつ、冗長なデータを削除できる。
✅ 視覚的なデータ分析 → 2次元や3次元にデータを変換することで、データのパターンを直感的に理解しやすくなる。

実際のG検定で出題された問題を見てみよう。

問題:
主成分分析の手法の説明として、最も適切な選択肢を選べ。

✅ 正解は「4. 相関の少ない変数に着目し、次元削減を行う手法」

G検定では「なぜ正解なのか」だけでなく「なぜ他の選択肢が間違いなのか」も理解しておくことが重要だ。

誤り：アンサンブル学習（バギングなど）の説明
この説明は、アンサンブル学習（例えばランダムフォレスト）の考え方に当てはまる。弱学習器（個々のモデル）を複数組み合わせることで精度を向上させる手法であり、PCAとは関係ない。

誤り：クラスタリング手法（k-means など）の説明
この説明は、クラスタリングアルゴリズム（k-means など）に関連する。クラスタの重心（センロイド）に最も近いデータ点を割り当てる手法であり、次元削減とは異なる。

誤り：サポートベクターマシン（SVM）の説明
マージンの最大化は、サポートベクターマシン（SVM）の考え方に基づく。PCAは次元削減の手法であり、SVMのように分類問題を解決するものではない。

PCAは、次の手順でデータを次元削減する。

PCAは、実際のデータ分析や機械学習で広く使われる。

主成分分析（PCA）は、相関の少ない変数に着目し、次元削減を行う手法であり、データ分析において非常に有用な技術だ。

✅ G検定対策のポイント
– PCAの目的 → データの次元削減
– 計算手順 → 標準化 → 共分散行列 → 固有値分解 → 主成分選択 → 投影
– 試験での誤答対策 → 「アンサンブル学習」「クラスタリング」「SVM」と混同しないこと

試験対策としても、実務でのデータ分析としても、主成分分析をしっかりと理解しておこう。