はじめに
ビッグデータの活用 では、データの形式が分析しやすい形になっていることが重要である。
しかし、多くのデータは「非構造化データ」(例:テキスト、画像、動画、音声など)として存在し、そのままでは分析が難しい。
そこで、データを「構造化データ」(例:データベースのテーブル形式)に変換する処理が必要になる。
本記事では、基本情報技術者試験(令和6年)科目A 問15 の問題を通じて、非構造化データを構造化データに加工するプロセスについて解説する。
基本情報技術者試験(科目A)問15の問題
試験問題
ビッグデータ分析の前段階として,非構造化データを構造化データに加工する処理を記述している事例はどれか。
ア. 関係データベースに蓄積された大量の財務データから必要な条件に合致するデータを抽出し,利用者が扱いやすい表計算ソフトウェアデータに加工する。
イ. 個人情報を含むビッグデータを更に利活用するために,特定の個人を識別することができないように匿名化加工する。
ウ. 住所データ項目の中にある,”ヶ”と”が”の混在や,丁番地の表記不統一を,標準化された表記へ統一するために加工する。
エ. ソーシャルメディアの口コミを機械学習によって単語ごとに分解し,要約を作り,分析可能なデータに加工し,関係データベースに保管する。
解答と解説
この問題の正解は 「エ. ソーシャルメディアの口コミを機械学習によって単語ごとに分解し,要約を作り,分析可能なデータに加工し,関係データベースに保管する。」 である。
では、それぞれの選択肢が何を意味するのか詳しく見ていこう。
1. 非構造化データを構造化データに加工する事例
「エ. ソーシャルメディアの口コミを機械学習によって単語ごとに分解し,要約を作り,分析可能なデータに加工し,関係データベースに保管する。」
これはエの内容をもとに再現した一例である。
非構造化データ → 構造化データへの変換例
- 入力:非構造化データ(SNSの口コミ・レビュー)
「このカフェのコーヒーは美味しいけど、店員の対応がちょっと冷たいな」
- 機械学習による処理
- 形態素解析(単語分解)
- コーヒー → 商品カテゴリ:「ドリンク」
- 美味しい → 評価:「ポジティブ」
- 店員の対応 → サービスカテゴリ:「接客」
- 冷たい → 評価:「ネガティブ」
- 要約
- 商品:「コーヒー」 評価:「良い」
- サービス:「接客」 評価:「悪い」
- 出力:構造化データ(データベースに格納)
投稿ID 商品 評価 サービス 評価 12345 コーヒー 良い 接客 悪い
このように、口コミデータ(非構造化データ)を、分析可能な表形式(構造化データ)に変換するプロセス が含まれているため、エが 正解 である。
2. 各選択肢の説明
ア. 関係データベースの財務データを表計算ソフトに加工
「関係データベースに蓄積された大量の財務データから必要な条件に合致するデータを抽出し,利用者が扱いやすい表計算ソフトウェアデータに加工する。」
なぜ誤りなのか?
- 関係データベースのデータ(例:SQLで管理される表形式のデータ)
- 表計算ソフト(例:Excelの表データ)
→ どちらも「構造化データ」 であり、「非構造化データ → 構造化データ」ではない。
→ したがって、この選択肢は 誤り である。
イ. ビッグデータの匿名化処理
「個人情報を含むビッグデータを更に利活用するために,特定の個人を識別することができないように匿名化加工する。」
なぜ誤りなのか?
- 匿名化はデータの「内容」を変更するが、データ形式は変えない。
- つまり、「非構造化データ → 構造化データ」ではなく、非構造化データのまま匿名化する処理 である。
→ したがって、この選択肢は 誤り である。
ウ. 住所データの表記統一処理
「住所データ項目の中にある,”ヶ”と”が”の混在や,丁番地の表記不統一を,標準化された表記へ統一するために加工する。」
なぜ誤りなのか?
- 住所データはすでに構造化データ(データベースのフィールド)である。
- 住所の表記を統一するのは、データの質を向上させる処理 だが、形式は変わらない。
→ 「構造化データ → 構造化データ」の変換にすぎず、「非構造化データ → 構造化データ」ではない。
→ したがって、この選択肢は 誤り である。
3. 非構造化データと構造化データの違い
データ形式 | 特徴 | 例 |
---|---|---|
非構造化データ | 一定のフォーマットがなく、データとしての整理がされていない | テキスト、画像、動画、音声、SNSの投稿、メール |
半構造化データ | ある程度フォーマットが決まっているが、データの種類が多様 | JSON、XML、ログデータ |
構造化データ | データベースや表形式で整理されている | 関係データベース(SQL)、Excelの表、売上データ |
まとめ
今回の試験問題では、「非構造化データを構造化データに加工する処理」として、
「ソーシャルメディアの口コミを機械学習によって単語ごとに分解し,要約を作り,分析可能なデータに加工し,関係データベースに保管する。」(エ) が正解だった。
ポイントの整理
✔ 非構造化データ → 構造化データの変換が求められる
✔ ソーシャルメディアの口コミ(非構造化データ)を、データベースに格納可能な形式(構造化データ)にする処理が正解
✔ 住所の表記統一やデータの匿名化は、データの内容を変更するが、データ形式自体は変えないため誤り
このようなデータ変換プロセスは、ビッグデータ分析やAI技術の活用において非常に重要 であり、今後のIT業界でも不可欠な知識となるだろう。
コメント