基本情報技術者試験の令和6年度の公開問題を解いてみよう。
今回のテーマは、「ビッグデータ分析」である。
問15 ビッグデータ分析の前段階として、非構造化データを構造化データに加工する処理を記述している事例はどれか。
ア 関係データベースに蓄積された大量の財務データから必要な条件に合致するデータを抽出し、利用者が扱いやすい表計算ソフトウェアデータに加工する。
イ 個人情報を含むビッグデータを更に利活用するために、特定の個人を識別することができないように匿名化加工する。
ウ 住所データ項目の中にある,“ヶ”と“が”の混在や、丁番地の表記不統一を、標準化された表記へ統一するために加工する。
エ ソーシャルメディアの口コミを機械学習によって単語ごとに分解し、要約を作り、分析可能なデータに加工し,関係データベースに保管する。
正解:エ
ビッグデータとは、簡単に言うと「日々生成される多種多様なデータ群」のことである。
その明確な定義は定まっていないが、例えば交通系ICカードに記録される乗車履歴やGPSから得られる位置情報、メールの内容、SNSの投稿やコメントといったデータが大量に蓄積されたものをビッグデータと呼ぶことができる。
(参考)NTT東日本のWebサイト
非構造化データとは、その名の通り構造定義されていないデータのことを指す。データベース化ができないため、検索や集計、解析に不向きなデータである。eメール、提案書・企画書、見積書・発注書、契約書などのOffice文章、デザインデータ、CADデータ、画像、動画、音声、センサーログなど、日常の業務で生成されるさまざまなデータが含まれる。データ単体で意味を持ち、用途も異なるうえに量が多く、発生する頻度も高いのが特徴である。
構造化データとは、ExcelやCSVファイルに代表される、「列」と「行」の概念をもつデータのことである。文字通り「構造化」されているため検索、集計や比較などが行いやすく、データの解析や分析に最も適したデータ構造である。ERP、CRMなどの業務システムでデータを効率よく管理するRDB(リレーショナル・データベース)でも用いられる。
(参考)TOPPAN BizのWebサイト
なお、ビッグデータの前処理とは、主に非構造化データを構造化データへ加工することである。
ア 誤り。
構造化データから構造化データへ加工する記述である。
イ 誤り。
匿名化加工に関する記述である。
ウ 誤り。
表記統一に関する記述である。
エ 正解。
非構造化データを構造化データに加工する処理を記述している。
(参考)
令和07年 基本情報技術者 パーフェクトラーニング過去問題集 山本 三雄 (著) 技術評論社
コメント