関心が高まる非構造化データの最適な扱い方

関心が高まる非構造化データの最適な扱い方

ビッグデータの活用が一般的になりつつある現在、情報は大きく2つに分類されるようになってきました。1つ目は構造化データです。「どこにどのようなデータがあるか」が「列」と「行」によって決められており、データの検索や集計、比較などを行いやすくデータ解析やデータ分析に最も適したデータ構造です。もう1つは非構造化データです。ドキュメントや画像のようにデータ単体で意味を持ち、それぞれ業務用途が異なるため、データベースでは扱うことが難しいデータであるといわれています。今回は、注目を集めている非構造化データの最適な扱い方について見ていきましょう。

非構造化データへの関心の高まりの背景

企業活動が「ビッグデータ分析」や「IoT」といった新しいデジタルテクノロジーへシフトしていることにより、非構造化データへの関心が急速に高まっています。新しいジャンルのデータデリバリーによって業務効率や業務プロセスの合理化を進めるには、非構造化データに対する適切なアプローチが必須となります。

ビッグデータの時代

企業が扱うデータのなかで著しい増加を遂げているのが、ドキュメントや画像といった非構造化データです。非構造化データが大幅に増加することで、データの容量はますます増大しています。膨大な非構造化データの保管を想定していない従来型のファイルストレージシステムは、その負荷に耐えられず、ビッグデータ時代に対応できなくなってきています。

IoT市場の拡大

多くの企業でIoT技術への関心が急速に高まっていますが、そのほとんどは「デバイス(センサーなど)の利用や管理についてのノウハウ」が先行しており、デバイスから収集された膨大なデータや情報をどのように活用し、分析モデルを確立していくか、という問題にはアプローチが遅れている状況が見られます。
実際にIoTにより収集される情報の多くは、単純なCSVファイルやRDB(リレーショナルデータベース)とは異なった非構造化データの形式を持っており、その取り扱い方法や管理方法において、従来とは異なる対応を求められることがその一因となっています。

非構造化データの種類

では、非構造化データには具体的にどのようなものがあるのでしょうか。おおまかに分類してみます。

用途やデータソースによる分類

書類、商品レビュー、電子メール、議事録、報告書、ブログ・SNSの投稿記事、防犯カメラのデータ、テレビ会議、ICレコーダーデータ、音声ログデータ、システムログデータ、アクセスログデータ、IoTデバイス(センサー)ログデータなど。

ファイル形式(拡張子)による分類

画像、音声、動画、ログデータ、ドキュメント、プレゼンテーション、表計算、圧縮ファイルなど。

非構造化データを扱う場合の課題

データベースで管理することが比較的に容易な構造化データに比べて、非構造化データは管理が難しいといわれています。第5期科学技術基本計画のなかで、Society 5.0で求められる大規模データ流通サービスプラットフォームでは、スケーラビリティ、エッジの活用、リアルタイム処理、セキュリティ、ガバナンス機能の提供などが重要な要件になるとされています。

※Society5.0とは、サイバー空間(仮想空間)とフィジカル空間(現実空間)を高度に融合させたシステムにより、経済発展と社会的課題の解決を両立する、人間中心の社会(Society)。狩猟社会(Society 1.0)、農耕社会(Society 2.0)、工業社会(Society 3.0)、情報社会(Society 4.0)に続く、新たな社会を指すもので、第5期科学技術基本計画において我が国が目指すべき未来社会の姿として初めて提唱されました。(引用元:内閣府「Society5.0とは」

では、非構造化データを扱う場合、どのような課題があるのでしょうか。特に非構造化データの管理には次のような課題があるとされています。

  • データ/コンテンツ量増大への対応、
  • データ/コンテンツの種類の多様化
  • セキュリティ対策の強化

「データ/コンテンツの種類の多様化」は、非構造化データ独特の課題であり、多くの企業が「多種類の非構造化データにどのように対応すべきか」について模索していることがうかがえます。例えば、データの最適な活用方法や保護の方法、パブリッククラウドサービスとの連携、非構造化データの増加に伴うハードウェアの更新にかかるコストなどがあります。

また、一般的に非構造化データは「データ管理にかかるストレージコストが増加する」というのも大きな課題です。データを管理するためのストレージを確保し続けるには、多くのコストと運用リソースが必要になります。また、管理項目が増えることも大きな負荷になります。DB等で統合して一括管理される構造化データとは異なり、データ量が多くなるほど管理項目が増えていく傾向があるからです。そのため、構造化データと比べて、ハードウエア更新などの際に管理者により大きな負荷がかかることになります。

今後、非構造化データ向けのファイル/オブジェクトストレージ市場はいっそう拡大していくと予想されています。IoTの活用が盛んになるにつれ、収集したビッグデータを分析し、その結果に基づいて新市場を探し出したり、新規事業を立ち上げたりする、といった機会が増えていくと思われます。

非構造化データの最適な扱い方

続いては、「非構造化データを適切に扱うためのシステムを選択し、運用していくには、どのようなノウハウが必要になるのか?」について、以下にまとめていきます。

1.ストレージの仮想化と管理の統合

ストレージの仮想化などによりサーバーごとに管理されている複数のストレージを論理的に統合し、単一のストレージプールとして管理します。容量が不足した際に拡張を行う、異機種のストレージ装置を組み合わせるといった利用が可能になり、急速に増大する可能性があるデータに対してソリューションを提供します。

2.パブリッククラウドサービス・クラウドストレージの活用

データセンター事業者やクラウド事業者が提供している、一般ユーザーや企業向けのクラウドコンピューティング環境をインターネット経由で提供するサービス(パブリッククラウドサービス)やクラウド上のストレージを利用します。自社で運用する場合に比べて、ストレージの容量拡大・縮小を低コストで迅速に行うことができます。

3.HCI(ハイパーコンバージドインフラ)の利用

HCIは、サーバーに最小限のコンピューティング機能とストレージ機能を統合した、スリムで必要最小限かつシンプルな構成を仮想化基盤によって実現します。このHCIに、仮想化基盤運用のベースとなる基本ソフトウエア製品をパッケージ化した製品が、次世代の仮想化インフラとして注目されています。

4.オブジェクトストレージの採用

オブジェクトストレージとは、階層構造を使わずにデータを保管する方式のことです。データは個別のオブジェクト単位としてストレージ内に同じ階層レベルで置かれます。それぞれには固有の識別名が付与されており、各アプリケーションはこの識別名を使用してオブジェクトを取得します。メタデータを設定しておき、それをもとに本データを取得することも可能です。

一方で、オブジェクトストレージも万能ではありません。データ容量の増加に対応するにはIAサーバーを増やすことで対応できますが、運用管理の煩雑さや維持コスト(設置スペースや消費電力など)も比例して大きくなります。また、消失訂正符号技術を使うことでデータの冗長性を保ちつつストレージの要領を低減できるなど、対応方法はあるものの、リアルタイムでの同期が難しく更新性の高いトランザクションデータには不向きと言えます。

まとめ:ますます高まる非構造化データへの対応

企業の情報資産における「非構造化データの価値」は、ビッグデータへの注目やIoT市場の急成長により今後ますます高まっていく傾向にあります。増え続ける大量のデータのなかから、価値あるデータを迅速かつ継続的に抽出して活用するには、システムのコスト、高い可用性、運用管理の容易さ、スケール、そして高い処理能力を強く意識する必要があります。

Infinidat社のストレージシステム、InfiniBoxはこれらのキーとなる要件全てをユーザーに提供することができる今迄に類をみないストレージシステムです。非構造化データを最適に活用できる状態は、事業の発展を促します。そういった観点でストレージシステムを選定していくことが重要だと言えるでしょう。

参考:

データ流通サービスプラットフォーム市場の展望に関する分析結果を発表|IDC

非構造化データの課題と管理|ストレージチャンネル

構造化データと非構造化データとデータの規則性|GiXo