信頼性、可用性、データ完全性:それぞれの違いと区別が重要な理由

信頼性、可用性、データ完全性:それぞれの違いと区別が重要な理由

Infinidat社本国のサイトで有用なブログ記事を日本語に翻訳してお届けします

信頼性、可用性、データ完全性は、しばしば同じ意味の用語と見なされますが、そうではありません。これらの概念の違いと関係性を理解することで、組織がより良いSLA を作成でき、また、データが物理的な破損からどれほど「安全」であるかを理解することができます。

信頼性

システム修復活動の頻度を測定します。ストレージアーキテクトの観点からは、信頼性とMTBF(平均故障間隔)は同義語です。数学的な信頼性(つまりMTBF)は、システムの故障率の逆数として定義されます。MTBF = 1/システム障害率。経験から、システムが複雑になれば、停止する可能性のある コンポーネントが多くなるため、単純なシステムよりも頻繁に故障することがわかっています。したがって、コンポーネントが存在しない場合は停止の可能性がないため、複雑なものよりも単純なものの方が常に優れていると誤って結論付けてしまいがちです。

ただ、このロジックには欠点があります。ストレージシステムに機能のための必要最小限のコンポーネントしかない場合、ハードウェア障害がすべてダウンタイムを引き起こす重大な障害になるのです。常時稼働している世界では、この状況を受け入れることはできません。解決策は、冗長性を追加して、すべてのハードウェア障害が重大ではなくなるようにする、つまり、システム内のすべての単一障害点(SPOF)を排除することです。ただし、システムに冗長性を持たせれば、修復作業の頻度が増加したり、システムの信頼性が低下したりすることは避けられません。

可用性

ストレージシステムがI/O要求を満たすことができる時間を測定します。多くの場合、「システムは、99.99999%の時間において利用可能(年間停止時間1分未満)」と言ったパーセンテージで表されます。可用性はMTBF/(MTBF + MTTR)として定義されることが普通で、MTTRは平均修理時間を指します。この式では、システムにSPOFがなく、すべてのソフトウェアの更新、容量のアップグレード、および修復活動がシステムの停止なしに実行される場合にのみ、100%の可用性が実現可能だということが分かります。

フィールドエンジニアリングとスペアへのアクセス、そして場合によっては電力が制限される遠隔地では、ストレージアーキテクトは、SPOFがなく、最小限のパーツで構成されるシステムを優先するべきです。パーツを最小限にすることで、システムの構築コスト、電力、冷却、およびスペース要件を抑えることができます。また、システムダウンに繋がりかねないフィールドエンジニアによる修理活動の回数も減らすことができます。

この可用性の計算式には、システムのサービスレベル目標を達成する能力について触れられていないという限界があります。システムは、I/O要求を満たしていても、サービスレベルの目標を満たしていない場合があります。したがって、コントローラーがオフラインで定格パフォーマンスの半分も性能発揮していないデュアルコントローラーストレージアレイが、エンドユーザーの観点から利用可能であるかどうかは議論の余地があります。

使用可能な可用性 はハードウェア障害の発生時にシステムがサービスレベル目標を達成する能力として定義され、上記の欠点に対処する方法となります。 使用可能な可用性は、システムのアーキテクチャとそれがサポートするワークロードに依存するため、使用可能な可用性は管理すべき対象となります。

データ完全性

 ストレージシステムの観点から、システムに書き込まれ格納されるデータ、およびシステムから読み取るデータの正確性を維持および保証する能力を測定します。直感的にデータ完全性はメディアの品質と密接に関連付けられますが、DRAM、SCM、フラッシュ、HDDのいずれであっても、データの破損の危険が付きまといます。メモリバス上のビットとメモリセルに格納されたビットが反転し、HDDには検出されないビットエラー率があります。したがって、ストレージシステムのデータ完全性を実際に維持および保証するのは、ソフトウェアであり、データ保護アルゴリズム、そしてモニタリングとなります。

まとめ

ストレージシステムがサービスレベル目標を確実に満たすには、ストレージアーキテクトや運用担当者が使用可能な可用性の観点から考える必要があります。さまざまなハードウェア障害とデータの再構築が本来のパフォーマンスに与える影響を定量化するのはストレージベンダーと協力するストレージアーキテクトの役割であり、十分な予備のパフォーマンスと容量を確保して使用可能な可用性の目標を満たすのが運用担当者の役割です。 RPO、RTO、およびパフォーマンスSLAに応じて、特にペタバイト規模のユーザーは、デュアルパリティのデータ保護スキームを優先するのがいいでしょう。このスキームはデータ完全性の保護において、RAID 1、10、および5よりも桁違いに優れています。


当BLOGは一部意訳を含めた翻訳であり、原文と異なる部分のある場合は原文を正としてご参照頂けるようお願い致します。

原文:https://www.infinidat.com/en/blog/reliability-availability-and-data-integrity-whats-difference-and-why-does-it-matter