基本情報技術者試験(令和6年)科目A 問15:非構造化データを構造化データに加工する事例とは?

FE対策

はじめに

ビッグデータの活用 では、データの形式が分析しやすい形になっていることが重要である。
しかし、多くのデータは「非構造化データ」(例:テキスト、画像、動画、音声など)として存在し、そのままでは分析が難しい。

そこで、データを「構造化データ」(例:データベースのテーブル形式)に変換する処理が必要になる。

本記事では、基本情報技術者試験(令和6年)科目A 問15 の問題を通じて、非構造化データを構造化データに加工するプロセスについて解説する。


スポンサーリンク
スポンサーリンク

基本情報技術者試験(科目A)問15の問題

試験問題

ビッグデータ分析の前段階として,非構造化データを構造化データに加工する処理を記述している事例はどれか。
ア. 関係データベースに蓄積された大量の財務データから必要な条件に合致するデータを抽出し,利用者が扱いやすい表計算ソフトウェアデータに加工する。
イ. 個人情報を含むビッグデータを更に利活用するために,特定の個人を識別することができないように匿名化加工する。
ウ. 住所データ項目の中にある,”ヶ”と”が”の混在や,丁番地の表記不統一を,標準化された表記へ統一するために加工する。
エ. ソーシャルメディアの口コミを機械学習によって単語ごとに分解し,要約を作り,分析可能なデータに加工し,関係データベースに保管する。


解答と解説

この問題の正解は 「エ. ソーシャルメディアの口コミを機械学習によって単語ごとに分解し,要約を作り,分析可能なデータに加工し,関係データベースに保管する。」 である。

では、それぞれの選択肢が何を意味するのか詳しく見ていこう。


1. 非構造化データを構造化データに加工する事例

エ. ソーシャルメディアの口コミを機械学習によって単語ごとに分解し,要約を作り,分析可能なデータに加工し,関係データベースに保管する。

これはエの内容をもとに再現した一例である。

非構造化データ → 構造化データへの変換例

  • 入力:非構造化データ(SNSの口コミ・レビュー)
「このカフェのコーヒーは美味しいけど、店員の対応がちょっと冷たいな」
  • 機械学習による処理
    • 形態素解析(単語分解)
    • コーヒー → 商品カテゴリ:「ドリンク
    • 美味しい → 評価:「ポジティブ
    • 店員の対応 → サービスカテゴリ:「接客
    • 冷たい → 評価:「ネガティブ
    • 要約
    • 商品:「コーヒー」 評価:「良い
    • サービス:「接客」 評価:「悪い
  • 出力:構造化データ(データベースに格納)
    投稿ID 商品 評価 サービス 評価
    12345 コーヒー 良い 接客 悪い

このように、口コミデータ(非構造化データ)を、分析可能な表形式(構造化データ)に変換するプロセス が含まれているため、が 正解 である。


2. 各選択肢の説明

ア. 関係データベースの財務データを表計算ソフトに加工

関係データベースに蓄積された大量の財務データから必要な条件に合致するデータを抽出し,利用者が扱いやすい表計算ソフトウェアデータに加工する。

なぜ誤りなのか?

  • 関係データベースのデータ(例:SQLで管理される表形式のデータ)
  • 表計算ソフト(例:Excelの表データ)

→ どちらも「構造化データ」 であり、「非構造化データ → 構造化データ」ではない。
→ したがって、この選択肢は 誤り である。


イ. ビッグデータの匿名化処理

個人情報を含むビッグデータを更に利活用するために,特定の個人を識別することができないように匿名化加工する。

なぜ誤りなのか?

  • 匿名化はデータの「内容」を変更するが、データ形式は変えない。
  • つまり、「非構造化データ → 構造化データ」ではなく、非構造化データのまま匿名化する処理 である。

→ したがって、この選択肢は 誤り である。


ウ. 住所データの表記統一処理

住所データ項目の中にある,”ヶ”と”が”の混在や,丁番地の表記不統一を,標準化された表記へ統一するために加工する。

なぜ誤りなのか?

  • 住所データはすでに構造化データ(データベースのフィールド)である。
  • 住所の表記を統一するのは、データの質を向上させる処理 だが、形式は変わらない。

→ 「構造化データ → 構造化データ」の変換にすぎず、「非構造化データ → 構造化データ」ではない。
→ したがって、この選択肢は 誤り である。


3. 非構造化データと構造化データの違い

データ形式 特徴
非構造化データ 一定のフォーマットがなく、データとしての整理がされていない テキスト、画像、動画、音声、SNSの投稿、メール
半構造化データ ある程度フォーマットが決まっているが、データの種類が多様 JSON、XML、ログデータ
構造化データ データベースや表形式で整理されている 関係データベース(SQL)、Excelの表、売上データ

まとめ

今回の試験問題では、「非構造化データを構造化データに加工する処理」として、
ソーシャルメディアの口コミを機械学習によって単語ごとに分解し,要約を作り,分析可能なデータに加工し,関係データベースに保管する。」(エ) が正解だった。

ポイントの整理

✔ 非構造化データ → 構造化データの変換が求められる
✔ ソーシャルメディアの口コミ(非構造化データ)を、データベースに格納可能な形式(構造化データ)にする処理が正解
✔ 住所の表記統一やデータの匿名化は、データの内容を変更するが、データ形式自体は変えないため誤り

このようなデータ変換プロセスは、ビッグデータ分析やAI技術の活用において非常に重要 であり、今後のIT業界でも不可欠な知識となるだろう。

コメント