いまさら聞けないキーワード

<いまさら聞けないキーワード>構造化データ

2011/10/20 15:26

週刊BCN 2011年10月17日vol.1403掲載

〈一般的な解釈は…〉顧客情報など、データベースに格納されるデータの様式。

 そもそも「データ」とは、文字や数字、音声など、情報を伝えるあらゆる要素をまとめて表現するものである。「構造化データ(Structured Data)」とは、データ様式の一つで、コンピュータシステム上のデータベース(DB)に格納することができるタイプのデータを指している。

 構造化データとしては、企業の顧客情報をはじめとして、経理データや販売データ、在庫データなどが挙げられる。これらのデータは、汎用のデータベース(データを統合する仕組み)に簡単に収めることができ、データベースを利用することによって、データの整理や検索をすることができる。データベースとして管理することができることから、「構造化」と名づけられた。

 構造化データに対する用語として、データベースに収まらない「非構造化データ(Unstructured Data)」がある。非構造化データには、例えば電子メールやテキストファイルなどの文書や、画像、動画といったデータがある。これらは、構造化データよりも複雑で、従来型のデータベースには簡単に格納できないので、「非構造化」と呼ぶようになった。文書の電子化などによって、非構造化データが大量に増え、現状は企業が抱えるデータの約80%を占めるといわれている。

 最近、ソーシャルメディアの利用者が増大しつつある。その影響で、インターネット上で非構造化データが急増しており、データ総容量が爆発的に増えている。このようにボリュームが大きくて、複雑化したデータを「ビッグデータ」と呼ぶ。

 調査会社のIDCは、データ総容量は2020年までに35ゼタバイト(35兆ギガバイト)に拡大するとみている。ITベンダーは、「ビッグデータ」を分析・活用するソリューションの開発を急いでいる。
  • 1

関連記事

<創刊30周年記念特集 5年先のIT業界を読む>ビッグデータ活用で企業は大きく伸びる!