関心高まる非構造化データの最適な扱い方

非構造化データ含めビッグデータの更なる増大とITコストカットの現実

以前は、企業で扱うデータの中心は、データベースや業務システムなどの構造化データが主でした。構造化データの保存や管理を効率的に行うには、ブロック単位での高速なアクセスが可能なSAN対応ストレージが適しています。 しかし近年はIoTの発展に伴い多種多様な非構造化データが急増し、構造化データの量を上回るようになりました。非構造化データの保存や管理には、ファイル単位で簡単にアクセスできるファイルシステム、つまりNASが最適です。

また、ビッグデータアプリケーションにより、組織がオンラインで分析する必要があるデータ量は激増しています。従ってストレージにはより高い計算処理能力を必要とします。ビッグデータは、本番環境データと考えられており、可用性、回復可能性、および性能は、企業内のトランザクションシステムと同じくらい重要です。IT予算全体に占めるストレージコストの割合も爆発的に増大しています。

しかし、ストレージへのニーズが高まる中、企業におけるIT予算は増加することはなく、むしろより縮小傾向にあります。つまり、システムとアプリケーションの信頼性、効率性、または性能を維持しつつ、より少ない労力でより多くの処理を行える必要があるのです。

データ活用とビジネス創出を支えるストレージ「InfiniBox」

では、これらの条件を充たし、企業のデータ活用とその実現のためにどのようなストレージの性能や運用が求められるのでしょうか。その解決方法としてユニフェイドストレージ「InfiniBox」を提案します。ユニファイドストレージは、ブロックベースの構造化データとファイルベースの非構造化データの両方の効率的な保存・管理が可能です。また、企業がデータ分析による新たなビジネス創出を推進するためには、増大し続けるデータを管理し続けられ、かつコストを終えられることが重要になります。企業のビジネス創出の持続性を担保する最適なユニファイドストレージこそがInfiniBoxです。

高い性能

大規模なデータセット、重要な分析アプリケーション、また、限られた時間内で急ぎ結果が求められる要求などにより、ストレージ性能の高さが重要となります。InfiniBoxでは、チューニングを行うことなく、出荷時の最適化調整により最大のパフォーマンスを実現します。InfiniBoxでは、高度なストレージにラップされた標準的な「既製」のハードウェアコンポーネント(CPU/Memory/HDD/SSD)を使用して、InfiniBoxアーキテクチャで使用されている480台のNear-Line SASドライブから最大限の性能を引き出します。コアシステムコードで開発された重要な要素の1つは、実際のアプリケーションプロファイルを分析し、キャッシュのプリフェッチおよびデステージアルゴリズムを根本から定義できることです。システム設計では、実際の運用環境におけるプロファイルを想定し、これらの条件下で最適な性能を提供します。この機能は、InfiniBoxアーキテクチャの中核です。

大規模なデータセット

大規模なデータセットは、予測不能でしばしばストレージフレームを圧迫するI/Oプロファイルを提供することによって、エンタープライズストレージアレイに固有の困難な課題をもたらしています。この結果、レイテンシが高くなり、分析ワークロードの実行時間が長くなります。いくつかの分析アクティビティは、非常にレイテンシの影響を受けやすく、多くの場合、アプリケーションがサポートするエンドユーザーに影響を及ぼします。これらのワークロードの多くは、キャッシュサイズ制限のあるストレージプラットフォームでは対応できませんが、InfiniBoxでは対応可能です。InfiniBoxは、キャッシュヒット率を改善し、レイテンシを低減するために、DRAMおよびSSDと共に高度なキャッシュ管理アルゴリズム(Neural Cache)を使用します。これらの特性の多くは、同時に発生していることが分かりますが、他の特性は、バックアップまたはデータロード/ETLなどの特定のアクティビティによって起こります。InfiniBoxは、広範囲のI/Oタイプを同時にサポート できるメリットがあります。データアーキテクチャは、高度なデータパリティ分散配置を使用して、InfiniBoxフレーム内の480個のスピンドルのそれぞれをすべて並列にポピュレートすることによって、各ボリュームのストレージを仮想化します。
さらに、InfiniBoxは、書き込みを改善するために非常に高度な機能を使用します。Infinidatは、独自の特許取得済みのマルチモーダルログ書き込みメカニズムを使用して、キャッシュからデステージされた書き込みI/Oの効率を大幅に改善しています。
多くの分析ワークロードは、即座にI/Oプロファイルを変更することができます。しかし、概して、ビッグデータおよび分析アプリケーションの大部分は、大きなブロックI/Oを使用し、ストレージからデータを読み込み、削減、ソート、比較してから集合データを書き出します。ほとんどのストレージ環境が大規模なブロックのサポートを考慮して設計されていないため、この改善はここで取り上げた例のデータ収集およびETLフェーズにとって非常に重要なものとなります。

高密度

Infinidatのストレージシステムは、単一の19インチラック内に数ペタバイトの実効容量で構成することができます。InfiniBoxストレージシステムは、完全な左右対称グリッドで、高度なマルチレイヤキャッシュアーキテクチャを持つ最新のオールアクティブコントローラー(ノード)システムです。データアーキテクチャには、ダブルパリティ(ワイドストライプ)データ配信モデルが含まれています。このモデルは、ランダムデータ分布とパリティ保護との固有の組合せを使用します。これは、データ設置面積を最小にしながら、最大限のデータ可用性を保証します。単一のInfiniBoxフレーム上に作成された各ボリュームは、そのフレーム内の480個のドライブのそれぞれにデータの一部を格納します。

高可用性と信頼性

高可用性により、常に分析結果を入手できることは、すべてのストレージシステムにとって重要です。「InfiniBox」のアーキテクチャは、強固な、セブンナイン(99.99999%) の高可用性を持つストレージ環境を提供します。これは1年に3秒未満のダウンタイムと同等です。何度ディスクに障害が発生したとしても、データを失うことはありません。
InfiniBoxは、非同期リモートミラーリングおよびスナップショットを含むエンドツーエンドのビジネス継続性機能を提供します。スナップショットを使用すると、データベースリカバリでは、従来のバックアップおよびリカバリ処理を使用し、ボリュームをホストにマップする時間を短縮できます。しかも、時間単位ではなく、分単位までに短縮した時間でリカバリ可能です。

使いやすく、自動化されたプロビジョニングと管理

InfiniBoxアーキテクチャではウェブベースのGUIおよび組み込みコマンドラインインターフェースが簡単に使用でき、ストレージシステムのデプロイメントおよび管理を迅速にかつ容易に行えます。従来のストレージ管理タスクの実行にかかっていた膨大な時間が短縮されます。また、InfiniBoxオープンアーキテクチャとOpenStackやDockerなどのRESTful API、プラットフォームの積極的なサポートがあるため、InfiniBox GUIを使用する必要はなく、アプリケーションレベルでストレージ管理タスクを実行することができます。
また、InfiniBoxはストレージプールとボリュームを特定のユーザーに分離することができる管理システムを提供します。プライベートクラウド環境でアプリケーションを利用しているユーザーが、そのユーザーコミュニティに割り当てられているストレージを参照して管理できるように、マルチテナンシーのための機能を備えています。

非常に低い総所有コスト(TCO)

高性能、高可用性、最も高いデータ密度、使いやすさのすべてで、TCOをおさえられています。これはミッションクリティカルなデータベースをより小さい物理的な設置面積に統合する必要がある環境にとって重要です。

SplunkとInfiniBox

ビッグデータのユースケースの1つは、Splunkクラスタのためのサポートです。現在、Splunkクラスタのデフォルト導入モデルでは、多くの安価なノードからクラスタを構築します。各ノードには、等しい量のコンピューティング、メモリー、および専用ストレージがあります。初めてSplunk環境を立ち上げる場合、最初の設計段階でほとんどの顧客がすべきことは、このノードレベルの設計を実現するための様々なリソースの適切な組み合わせを見つけることです。それから多数のこれらのノードを一緒に配列して、利用頻度の高い分析アプリケーションのための規模の大きなコンピューティング環境を構築します。ほとんどの顧客が直面する問題は、クラスタ内の計算サイクルが短くなるかなり前の段階で、顧客がストレージを使い果たしてしまうことです。
専用ストレージを使用する顧客が利用可能な唯一の選択肢は、クラスタに継続的により多くのノードを追加することです。これは、(必要とされないかもしれませんが)より多くの計算処理能力も追加する場合を除き、多くの場合この専用ストレージモデルが機能しない場合には良い方法です。ノードごとの専用ハードドライブの代わりにInfiniBoxブロックベースのSANストレージを採用することで、各ノードが提供できるストレージの量に制限されなくなります。LUNを動的に追加したり、クラスタごとにLUNごとに空き容量を増やしたりすることができます。必要になる前に計算処理能力を追加する必要はありません。
Splunkではデータがセブンナイン(99.99999%)の可用性で完全に保護されるため、データの冗長性を低減することができます。

おわりに

InfiniBoxは、ビッグデータアプリケーションで高性能,大容量を実現します。InfiniBoxを導入することにより、ビッグデータ分析プロジェクトを進める場合、コスト削減、継続的かつ大規模な容量スケーリング、シンプルかつ効果的な管理といったビジネス目標を達成することができます。また、処理性能や品質に対する信頼性を損なうことはありません。これらすべてにより、効果的かつ効率的にオールフラッシュの高性能なストレージシステムより低価格でビッグデータアプリケーションを利用することが可能になります。
日商エレクトロニクスはIoTの進化にともなうデータの肥大化、それに対するビッグデータ分析/解析のニーズが増々高まる中、多くの企業のデータ活用にInfiniBoxが最適なストレージソリューションとして広く普及するようソリューションセミナーやPoC検証を積極的に実施していきます。