ビジネスに必須のデータ分析、価値あるデータを蓄積するデータレイクの理想スタイルは?

ビジネスに必須のデータ分析、価値あるデータを蓄積するデータレイクの理想スタイルは?

IoTやAIの活用がビジネスで必須となることは間違いないでしょう。そこで求められるのが膨大なデータであり、最適な蓄積方法です。そのひとつに「データレイク」があります。同じような言葉でよく耳にする「データウェアハウス」との違いに触れながら、理想的なデータレイク環境を手に入れる方法についてご紹介します。

データレイクがこれからの企業に必要な理由

データ分析の目的や、その前段となるデータの蓄積についてあらためて整理しましょう。

ビジネスに必須のデータ分析、なぜ?

消費の好みやITをはじめとした技術の変化は速く、従来のビジネスモデルでは対応できなくなることが多くなりました。勘や思い入れだけで経営のかじ取りをしていると、変化に乗り遅れたり動向を見誤ったりするリスクが生じます。そこで、意思決定にもエビデンス(証拠)が求められるようになり、その根拠となるものとしてこれまで以上にデータの重要性が高まりました。経理のような基幹系のデータのみならず、営業やサービス、製造の現場で発生していることをすべて数値に置き換えて把握し、ビジネスに活かすという考え方です。BI(※1)がその代表です。

(※1)ビジネスインテリジェンス。企業内の情報を収集・蓄積・分析・レポートすることで、経営判断や意思の決定に役立てること。

データを収集する手法のIoTや、データを分析して最適な解を導き出すビッグデータテクノロジー、AIによる自動化や最適化などが方向性として示されています。ここで蓄積されるデータの量と質が問われてくるのです。

データレイクとデータウェアハウスの違い

どちらもデータの置き場所を指しますが、データウェアハウスはある程度データ活用の目的が設定され、その仕様に合わせたデータの収集と分析をするためのデータ蓄積スタイルです。一方、データレイクは、構造化、非構造化の区別なく近い将来の価値抽出のために、データをできるだけ多く取り出したり利用したりできるように保存しておくスタイルになります。

データレイク運用上の注意点は?

それではデータレイクについて、もう少し詳しく見ていきましょう。

データレイクの役割

IoTの普及とビッグデータ分析の価値の認識、大量のデータの解析結果などから解を導き出すAIの注目とともにデータレイクの必要性が高まってきました。かつては、データというと基幹業務に関係するものや、顧客データ、研究データなどが代表的で、それ以外のデータに関しては保存にストレージ利用料などがかかるため、多くは消去されてきました。
しかし、大量のデータを解析することで経営やビジネスに役立つことが分かったため、そのデータを一時的にでも保管するという考えが生まれたのです。データレイクは、AIのようにどんなデータがビジネスに役立つか分からない場合でも、一旦多くのデータを蓄積しいつでも活用できる状態に保存するという明確な目的と価値が認識され、現在に至っているのです。

データレイクに求められる基盤

構造化、非構造化データの違いなくデータを蓄積するとその量は膨大になるので、どこに、どのデータが、どのような形で、保存されているか明確にし、いかにスムーズに取り出せるかがポイントになります。言葉にすると分かりやすく単純に思えますが、日本の企業組織は縦割りの組織が多く横断的な情報の交換が難しい場合があるのと同様に、データに関しても企業を挙げて集めるとなると障壁が多くなります。

これまでの縦割り組織的なデータの持ち方ではなく、全社で情報の共有、一元管理を実現することで、ビッグデータとしての有用なデータの発見や複数の部署で分散管理してきたデータコストの圧縮ができるようになるのです。

理想的なデータレイクの姿

それでは、理想的なデータレイクの姿とは、どのような形なのでしょうか。

やはりオンプレミス環境が理想

結論から言うと、データレイクの運用でもオンプレミスのストレージを利用するのが、やはり理想的です。もちろん、オンプレミスでも構築費や運用費が課題となります。データレイクの用途から、今後、蓄積されていくデータ量は増える一方となることが予想されるため、コスト的な限界は目に見えてしまいます。

しかし、形だけのデータレイクとして、クラウド上に機械的にデータを置くだけでは意味がありません。データは頻度高く活用してこそ、意味があるからです。そのためには、転送速度が速く可用性と信頼性のあるシステムでのデータレイクの運用が求められるのです。

そこで「InfiniBox」という選択肢が浮かび上がってきます。データレイクの用途に適した基本機能を挙げると、次のようになります。

  • 大量の並列処理
    超高速、超小型、自己調整機能を備えたメタデータストレージストラクチャで、すべてをリアルタイム運用管理できる。
  • 高速DRAM
    書き込みと読み取りは、遅延がNANDフラッシュの1000分の1のナノ秒レベルの分散RAM(DDR4)キャッシュからの対応。ホットデータの格納・複製は常にDRAMで行う。
  • フラッシュとディスクの併用
    キャッシュミスは分散NANDのキャッシュで対応、活性データはディスクではなくフラッシュに可能、コールドデータは独自のInfiniRAID(R)ストレージエンジンでコンパクト化、低コスト、高密度のハイパースケールディスクドライブに分散保護。
  • 機械学習などの技術
    ワークロードを学習することで、アクセスパターンとマルチエクサバイトモデルのアプリケーションの実際のワークロードとを組み合わせて、リアルタイム・インテリジェンスによるキャッシュ判断を実行。

オンプレミスではありますが、そのコストをカバーする運用上のパフォーマンスを持つことが最大のポイントです。その結果、一見利用料の面で安く感じるクラウドでのデータレイク運用に比べて、実践利用に即した理想的なデータレイク用のストレージシステムが構築できることになります。

BCPへの課題解決にも

同様の観点で、BCP(事業継続計画)対策としてのデータストレージにもその特長が生かせます。データのバックアップに時間を要したり、万一のときのデータ復活に時間とコストがかかってしまったりするようでは、データそのものの保護ができたとしても完全復旧までのプロセスに大きな課題を残します。BCPのためのストレージでも、コストパフォーマンスの高い高速なストレージを利用することが、やはり理想的であるのです。

参考までに、BCPに理想的と言える「InfiniGuard」の代表的な機能・特性は次のとおりです。

  • フラッシュの最適化
    SSDがDBの重複除外のための低遅延アクセスをサポートし、HDDがバックアップ画像の高スループットの書き込みをサポートする。
  • バックアップ性能を引き上げる書き込みバランス
    RAMキャッシュレイヤーから認識される書き込み、高スループットを提供する240 NL-SASディスク。
  • 12個のインターフェースポート
    10ギガビットイーサーネットと16ギガビットファイバーチャネルとの組み合わせ。
  • 修復性能を高めるスマートキャッシング
    プリフェッチブロックにアナリティクスのアルゴリズムを読み出すようにキャッシュをチューニングする。

まとめ:活用を前提にパフォーマンスの高いデータレイクを構築することが大切

そもそも、積極的にデータを活用し、それをビジネスや経営に活かすという姿勢でデータレイクの運用を考えることが大切なのです。クラウドストレージのみに頼るのではなく、収集、蓄積、そして利用の頻度を高めるためには、メインのデータレイクにパフォーマンスの高いオンプレミスのストレージを使うことをおすすめします。データの量とロード時間を考え、クラウドと使い分けることが重要なのです。