はじめに
AIや機械学習を学ぶ上で、「scikit-learn」は避けて通れないPythonライブラリだ。
その使いやすさから、G検定や機械学習エンジニア認定試験などの登竜門でも頻出となっている。
今回は、scikit-learnのトイデータセットに関する過去問をもとに、「知っているだけで得点できる」ポイントを整理していこう。
scikit-learnに用意されている「トイデータセット」とは?
scikit-learnには、チュートリアルやアルゴリズムの動作確認に便利な小規模データセットが複数組み込まれている。これらは「トイデータセット(toy datasets)」と呼ばれ、ダウンロード不要で即利用できるのが特徴だ。
代表的なものをいくつか紹介する。
| データセット名 | 内容 |
|---|---|
| iris(アヤメ) | アヤメの花びら・がく片の長さと品種 |
| digits(手書き数字) | 手書きの数字画像(8×8ピクセル) |
| boston(住宅価格) | ボストン市内の住宅価格と属性情報(※非推奨) |
このように、scikit-learnは学習アルゴリズムの動作確認に適したデータをすぐに試せる環境が整っている。
問題その1
次の選択肢のうち、scikit-learnのトイデータセットとして不適切なものを選べ。
選択肢
- ファッション画像データセット
- 数字の手書き文字データセット
- アヤメの品種データセット
- ボストン市の地区別住宅価格データセット
正解は「1. ファッション画像データセット」
なぜ「ファッション画像データセット」が不適切なのか?
ファッション画像データセット(Fashion-MNIST)は、Zalandoが公開している衣類の画像データであり、主に「TensorFlow」や「PyTorch」などで利用されるケースが多い。
一方、scikit-learnには標準でこのデータセットは含まれていない。
これに対して、他の選択肢はすべてscikit-learnに搭載済みのデータセットである。
| データセット名 | 含まれるか? | 補足 |
|---|---|---|
| ファッション画像データセット | × | TensorFlowやKerasで使用される。scikit-learnには含まれない。 |
| 手書き数字データセット(digits) | ○ | 8×8ピクセルの手書き数字。load_digits()で取得可能。 |
| アヤメデータセット(iris) | ○ | 品種分類の代表例。load_iris()で取得。 |
| ボストン住宅価格データセット(boston) | △ | load_boston()で取得可能だったが、現在は非推奨。 |
特にボストン住宅価格データセットは、倫理的な配慮から非推奨となった点に注意したい。ただし、過去にはscikit-learnの標準データセットであったため、試験対策上は「含まれる」と考えてよい。
scikit-learnのトイデータセットを活用する意義
これらのデータセットは、モデル構築から評価までを素早く試すのに最適だ。以下のような場面で効果的に使える。
1. アルゴリズムの挙動確認
- Irisで分類アルゴリズム(SVM、kNNなど)の動作確認
- Digitsで画像分類アルゴリズムの精度比較
2. データ前処理の練習
- 特徴量のスケーリングやエンコードなどの事前処理練習に最適
3. チュートリアルや教育用教材として
- データサイズが小さいため、初学者にも扱いやすい
まとめ
scikit-learnのトイデータセットは、学習の最初の一歩として非常に便利だ。
ただし、すべての有名データセットが含まれているわけではない点には注意が必要。
✅ scikit-learnに含まれるトイデータセット
- アヤメ(iris)
- 手書き数字(digits)
- ボストン住宅価格(boston)※非推奨
❌ 含まれないデータセット
- ファッション画像(Fashion-MNIST)→ TensorFlow等で使用される
試験対策では、「どれがscikit-learnに含まれていて、どれが含まれていないか」を一問一答で押さえておくと有利だ。
ライブラリの機能を正確に把握することが、試験突破への第一歩となる。


コメント