はじめに

近年、AI技術の進展に伴い、自然言語処理（NLP）はより多くの領域で活用されている。
その中でも「テキストマイニング」は、企業のデータ分析からマーケティング、カスタマーサポートの改善まで幅広く使われる重要な手法だ。

G検定では、NLPの基本概念が頻出テーマとなっており、BoW（Bag-of-Words）の理解は欠かせないポイントとなっている。

今回は、G検定の過去問を題材にしながら、BoWとは何か、またその前処理についても整理しておこう。

Contents

BoW（Bag-of-Words）とは？
問題その1：G検定の過去問より
1. 選択肢
なぜ「テキストをベクトル化する」が正解なのか？
なぜ他の選択肢は不適切なのか？
BoWを活用する場面とは？
BoWをPythonで試すには？

BoW（Bag-of-Words）とは？

BoWは、文章を単語ごとの出現頻度として数値化し、文章全体を単語の集合（袋）として捉えるシンプルな手法だ。
意味や語順は考慮せず、単語の有無や出現回数のみを重視する特徴がある。

たとえば、次の2文を考えてみよう。

文①：「AIが世界を変える」
文②：「世界がAIを変える」

この2文は語順が異なるが、BoWでは次のように同じベクトルとして扱うことがある。

単語	出現回数
AI	1
が	1
世界	1
を	1
変える	1

語順を無視して、単語が登場したかどうかに注目するのがBoWの基本的な考え方だ。

問題その1：G検定の過去問より

テキストマイニングなどで行うBoW（Bag-of-Words）の説明として、最も適切な選択肢を選べ。

選択肢

テキストの表記ゆれを統一する
テキストを電子化する
テキストを分割する
テキストをベクトル化する

正解は「4. テキストをベクトル化する」

なぜ「テキストをベクトル化する」が正解なのか？

BoWの本質は、「文章を数値ベクトルに変換する」ことにある。
これにより、機械学習モデルが文章データを扱えるようになる。

たとえば、文章をベクトルで表すと次のような処理が可能になる：

複数の文章間で類似度を測定できる（コサイン類似度など）
感情分析や分類タスクで数値処理が可能になる
機械学習モデルへの入力として使用できる

BoWは、文章を構成する単語の集合をベースにベクトルを構築するため、まさに「テキストのベクトル化」という表現が最も適している。

なぜ他の選択肢は不適切なのか？

選択肢を一つずつ見ていこう。

選択肢	説明	誤りの理由
1. 表記ゆれの統一	「AI」と「ＡＩ」など、同じ意味でも表記の異なる単語を統一する処理	BoWの準備段階では有効だが、BoWそのものの説明には当たらない
2. テキストの電子化	書籍や紙媒体をOCRなどでデジタル化する作業	自然言語処理の前段階の処理であり、BoWの内容とは直接関係がない
3. テキストの分割	文や単語の区切りを判定する（トークン化）	ベクトル化する前の工程であり、BoWそのものの定義ではない
4. テキストをベクトル化する	BoWは単語の出現情報を使って数値ベクトルを構築する手法	最も適切な選択肢

このように、他の選択肢はいずれもBoWの「前処理」として重要だが、BoWそのものの説明としては不十分となる。

BoWを活用する場面とは？

BoWは古典的な手法ではあるが、現在でも幅広い用途で活用されている。以下に代表例を挙げておく。

1. スパムメール判定

受信したメールをBoWでベクトル化し、「スパム語」の出現頻度からスパム判定を行う。

2. 映画レビューの感情分析

ユーザーのレビューを単語ごとに数値化し、ポジティブ・ネガティブを分類するモデルに入力する。

3. 商品レビューの自動分類

ECサイトの商品レビューをカテゴリ別に分類する際にもBoWが活用される。

BoWをPythonで試すには？

Pythonでは、以下のようにCountVectorizerを使うことで簡単にBoWを構築できる。

from sklearn.feature_extraction.text import CountVectorizer

texts = ["AIが世界を変える", "世界がAIを変える"]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

print(vectorizer.get_feature_names_out())
print(X.toarray())

📌 実行結果（単語ごとの出現頻度が表示される）

まとめ

G検定の過去問を通じて、BoW（Bag-of-Words）の本質を再確認した。

✅ BoWとは？ → 文章内の単語を数値ベクトルに変換する手法
✅ 正しい選択肢 → 「テキストをベクトル化する」
✅ 誤りの選択肢 → BoWの前処理ではあるが、本質的な説明には不適切

自然言語処理の理解を深めるためには、こうした基礎的な概念を確実におさえておくことが重要だ。
G検定合格を目指す人にとっても、BoWはスルーできないテーマの一つである。

記事の続きとして、「TF-IDF」や「Word2Vec」といった次のステップも取り上げていくと理解がさらに深まる。
興味があれば、そちらもぜひチェックしてみてほしい。

BoWとは？自然言語処理におけるテキストのベクトル化手法を解説【G検定対策】