はじめに

AIや機械学習を学ぶ上で、「scikit-learn」は避けて通れないPythonライブラリだ。
その使いやすさから、G検定や機械学習エンジニア認定試験などの登竜門でも頻出となっている。

今回は、scikit-learnのトイデータセットに関する過去問をもとに、「知っているだけで得点できる」ポイントを整理していこう。

Contents

scikit-learnに用意されている「トイデータセット」とは？

scikit-learnには、チュートリアルやアルゴリズムの動作確認に便利な小規模データセットが複数組み込まれている。これらは「トイデータセット（toy datasets）」と呼ばれ、ダウンロード不要で即利用できるのが特徴だ。

代表的なものをいくつか紹介する。

このように、scikit-learnは学習アルゴリズムの動作確認に適したデータをすぐに試せる環境が整っている。

次の選択肢のうち、scikit-learnのトイデータセットとして不適切なものを選べ。

正解は「1. ファッション画像データセット」

ファッション画像データセット（Fashion-MNIST）は、Zalandoが公開している衣類の画像データであり、主に「TensorFlow」や「PyTorch」などで利用されるケースが多い。
一方、scikit-learnには標準でこのデータセットは含まれていない。

これに対して、他の選択肢はすべてscikit-learnに搭載済みのデータセットである。

データセット名	含まれるか？	補足
ファッション画像データセット	×	TensorFlowやKerasで使用される。scikit-learnには含まれない。
手書き数字データセット（digits）	○	8×8ピクセルの手書き数字。`load_digits()`で取得可能。
アヤメデータセット（iris）	○	品種分類の代表例。`load_iris()`で取得。
ボストン住宅価格データセット（boston）	△	`load_boston()`で取得可能だったが、現在は非推奨。

特にボストン住宅価格データセットは、倫理的な配慮から非推奨となった点に注意したい。ただし、過去にはscikit-learnの標準データセットであったため、試験対策上は「含まれる」と考えてよい。

これらのデータセットは、モデル構築から評価までを素早く試すのに最適だ。以下のような場面で効果的に使える。

scikit-learnのトイデータセットは、学習の最初の一歩として非常に便利だ。
ただし、すべての有名データセットが含まれているわけではない点には注意が必要。

✅ scikit-learnに含まれるトイデータセット

❌ 含まれないデータセット

試験対策では、「どれがscikit-learnに含まれていて、どれが含まれていないか」を一問一答で押さえておくと有利だ。
ライブラリの機能を正確に把握することが、試験突破への第一歩となる。