はじめに

ビッグデータの活用では、データの形式が分析しやすい形になっていることが重要である。
しかし、多くのデータは「非構造化データ」（例：テキスト、画像、動画、音声など）として存在し、そのままでは分析が難しい。

そこで、データを「構造化データ」（例：データベースのテーブル形式）に変換する処理が必要になる。

本記事では、基本情報技術者試験（令和6年）科目A 問15 の問題を通じて、非構造化データを構造化データに加工するプロセスについて解説する。

Contents

基本情報技術者試験（科目A）問15の問題
1. 試験問題
解答と解説
1. 非構造化データを構造化データに加工する事例
1. 非構造化データ → 構造化データへの変換例
2. 各選択肢の説明
3. 非構造化データと構造化データの違い
1. ポイントの整理

基本情報技術者試験（科目A）問15の問題

試験問題

ビッグデータ分析の前段階として，非構造化データを構造化データに加工する処理を記述している事例はどれか。
ア. 関係データベースに蓄積された大量の財務データから必要な条件に合致するデータを抽出し，利用者が扱いやすい表計算ソフトウェアデータに加工する。
イ. 個人情報を含むビッグデータを更に利活用するために，特定の個人を識別することができないように匿名化加工する。
ウ. 住所データ項目の中にある，”ヶ”と”が”の混在や，丁番地の表記不統一を，標準化された表記へ統一するために加工する。
エ. ソーシャルメディアの口コミを機械学習によって単語ごとに分解し，要約を作り，分析可能なデータに加工し，関係データベースに保管する。

解答と解説

この問題の正解は「エ. ソーシャルメディアの口コミを機械学習によって単語ごとに分解し，要約を作り，分析可能なデータに加工し，関係データベースに保管する。」である。

では、それぞれの選択肢が何を意味するのか詳しく見ていこう。

1. 非構造化データを構造化データに加工する事例

「エ. ソーシャルメディアの口コミを機械学習によって単語ごとに分解し，要約を作り，分析可能なデータに加工し，関係データベースに保管する。」

これはエの内容をもとに再現した一例である。

非構造化データ → 構造化データへの変換例

入力：非構造化データ（SNSの口コミ・レビュー）

「このカフェのコーヒーは美味しいけど、店員の対応がちょっと冷たいな」

機械学習による処理
- 形態素解析（単語分解）
- コーヒー → 商品カテゴリ：「ドリンク」
- 美味しい → 評価：「ポジティブ」
- 店員の対応 → サービスカテゴリ：「接客」
- 冷たい → 評価：「ネガティブ」
- 要約
- 商品：「コーヒー」評価：「良い」
- サービス：「接客」評価：「悪い」
出力：構造化データ（データベースに格納）

投稿ID 商品評価サービス評価

12345 コーヒー良い接客悪い

投稿ID	商品	評価	サービス	評価
12345	コーヒー	良い	接客	悪い

このように、口コミデータ（非構造化データ）を、分析可能な表形式（構造化データ）に変換するプロセスが含まれているため、エが正解である。

2. 各選択肢の説明

ア. 関係データベースの財務データを表計算ソフトに加工

「関係データベースに蓄積された大量の財務データから必要な条件に合致するデータを抽出し，利用者が扱いやすい表計算ソフトウェアデータに加工する。」

なぜ誤りなのか？

関係データベースのデータ（例：SQLで管理される表形式のデータ）
表計算ソフト（例：Excelの表データ）

→ どちらも「構造化データ」であり、「非構造化データ → 構造化データ」ではない。
→ したがって、この選択肢は誤りである。

イ. ビッグデータの匿名化処理

「個人情報を含むビッグデータを更に利活用するために，特定の個人を識別することができないように匿名化加工する。」

なぜ誤りなのか？

匿名化はデータの「内容」を変更するが、データ形式は変えない。
つまり、「非構造化データ → 構造化データ」ではなく、非構造化データのまま匿名化する処理である。

→ したがって、この選択肢は誤りである。

ウ. 住所データの表記統一処理

「住所データ項目の中にある，”ヶ”と”が”の混在や，丁番地の表記不統一を，標準化された表記へ統一するために加工する。」

なぜ誤りなのか？

住所データはすでに構造化データ（データベースのフィールド）である。
住所の表記を統一するのは、データの質を向上させる処理だが、形式は変わらない。

→ 「構造化データ → 構造化データ」の変換にすぎず、「非構造化データ → 構造化データ」ではない。
→ したがって、この選択肢は誤りである。

3. 非構造化データと構造化データの違い

データ形式	特徴	例
非構造化データ	一定のフォーマットがなく、データとしての整理がされていない	テキスト、画像、動画、音声、SNSの投稿、メール
半構造化データ	ある程度フォーマットが決まっているが、データの種類が多様	JSON、XML、ログデータ
構造化データ	データベースや表形式で整理されている	関係データベース（SQL）、Excelの表、売上データ

まとめ

今回の試験問題では、「非構造化データを構造化データに加工する処理」として、
「ソーシャルメディアの口コミを機械学習によって単語ごとに分解し，要約を作り，分析可能なデータに加工し，関係データベースに保管する。」（エ）が正解だった。

ポイントの整理

✔ 非構造化データ → 構造化データの変換が求められる
✔ ソーシャルメディアの口コミ（非構造化データ）を、データベースに格納可能な形式（構造化データ）にする処理が正解
✔ 住所の表記統一やデータの匿名化は、データの内容を変更するが、データ形式自体は変えないため誤り

このようなデータ変換プロセスは、ビッグデータ分析やAI技術の活用において非常に重要であり、今後のIT業界でも不可欠な知識となるだろう。

基本情報技術者試験（令和6年）科目A 問15：非構造化データを構造化データに加工する事例とは？

はじめに

基本情報技術者試験（科目A）問15の問題

試験問題

解答と解説

1. 非構造化データを構造化データに加工する事例

非構造化データ → 構造化データへの変換例

2. 各選択肢の説明

ア. 関係データベースの財務データを表計算ソフトに加工

なぜ誤りなのか？

イ. ビッグデータの匿名化処理

なぜ誤りなのか？

ウ. 住所データの表記統一処理

なぜ誤りなのか？

3. 非構造化データと構造化データの違い

まとめ

ポイントの整理

コメント