Digital Operations Command Center:リアルタイムのインシデント管理のための天気予報サービス

「予言と予測はそうではありません...予測という用語は、科学的な組み合わせと計算の結果であるような意見に厳密に適用されます。」

ロバート・フィッツロイ提督、英国気象局の初代所長

英国気象庁が設立される前は、農民と船員は迷信と民俗の知恵に依存していました(「雲の出現や動物の行動」)気象パターンを予測します。 1854年、 ロバート・フィッツロイ提督、先駆的な気象学者は、毎日の天気予報に科学的手法を使用して、既存の教義を打ち砕きました。 

フィッツロイ提督の毎日の暴風雨警報は、海での無数の命を救い、公共の天気予報サービスの作成に役立ちました。では、これは最新のIT運用、より具体的にはビジネスクリティカルなエンタープライズサービスのインシデント管理とどのように関連しているのでしょうか。

現代のインシデント管理の問題

新時代のITサービスは、分散リソース(データセンターとマルチクラウドインフラストラクチャ)、外部のサードパーティサービス(APIに依存)、および共有エンタープライズサービス(IDやアクセス管理など)に依存しています。 ITサービスの顧客は、さまざまな場所やビジネスユニットにも分散しています。

ITサービスが稼働しているか停止しているかを理解するには、さまざまなサービスコンポーネント間でヘルス情報とパフォーマンス情報をまとめる必要があります。サービスのさまざまな部分を調査および分析しない限り、根本的な問題を理解することはできません。 インシデント管理チームがITサービス提供のコンテキストで考慮する必要があるいくつかの質問を次に示します。

  • ITサービスが適切に機能しているかどうかを整理および評価するための最も効果的な方法は何ですか?
  • さまざまなツールから、サービスの失敗を示す可能性のあるアラートを受け取りました。サービスへの影響を解釈および決定するための適切なコンテキストがありますか?
  • 共通のインフラストラクチャリソースに依存する2つのITサービスがある場合、各ITサービスのイベントへの影響をどのようにコンテキスト化しますか?

各IT運用チームが独自の一連の活動に集中していることを考えると、今日は 全体像を見て真に理解するための望楼。 NSデジタルオペレーションコマンドセンターは、既存のツールスタックの上に配置され、ITサービスに関するコンテキスト情報を表示する監視塔です。 コマンドセンターは柔軟なフレームワークであり、IT環境で何が起こっているのかを理解し、適切なアクションをより早く実行できるように、全体的な方法で情報を処理できます。 ガバナンスとビジネスユニットの俊敏性の健全なバランスを確保しながら、可視性、インテリジェンス、自動化を提供します。 

Lifecyclemanagement-DOCC
               図1-デジタルオペレーションコマンドセンターを使用して、インシデントの迅速な優先順位付け、対応、および復元を推進します。

IT運用を一元化していない場合、ITサービスを俯瞰することはできません。デジタルオペレーションコマンドセンターは、インシデント管理アクティビティの集約、解釈、問題認識、影響分析、最初の対応、およびディスパッチを提供します。コマンドセンターでの作業は、気象の予言を信じることから、数値的な気候予測モデルを使用することへと移行するようなものです。   

デジタルオペレーションコマンドセンターで未来に戻る

国立気象局がなければ、あなたが経験している現在の気候が一時的なものなのか、それともより広範な傾向の一部なのかをどうやって知ることができますか?気象局と同じように、デジタルオペレーションコマンドセンターは、次の質問に答えるのに役立つ信頼できる情報源です。 ITサービスは稼働していますか?

停止に対応するには、さまざまな可能性を排除するための体系的な方法とともに、適切な調整が必要です。インシデント解決のための一元化されたプラットフォームがない場合、全員が同時に指を指し始め、完全な混乱につながります。構造化されていないインシデント分析は、数百万ドル、企業の評判、顧客満足度が危機に瀕している場合には意味がありません。

Reduction-in-incident-resolution-02
                         図2-コマンドセンターは、サービスの確認と迅速な復元までの平均時間を短縮します。

デジタルオペレーションコマンドセンターは、サービス中断の根本原因を特定の時間と空間(リソースのセット)に分離します。問題を認識し、状況を把握して切り分けるだけでなく、適切なチームに解決策を通知することもできます。コマンドセンターがなくてもインシデントを解決することはできますが、複雑でまとまりのないプロセス

OpsRampでインシデント管理の混乱を制御する

OpsRampのコマンドセンターは、さまざまなチーム間でインシデント対応を調整することにより、デジタルサービスの状態とパフォーマンスの管理を支援します。国立気象局が中立的で冷静な情報源であるのと同じように、 OpsRampプラットフォーム 構造化された方法でノイズをカットすることにより、インシデント対応プロセスを最適に編成します。

  • 問題の認識。 ユニファイドサービスインテリジェンス 分散リソースとハイブリッドリソース(オンプレミスおよびクラウドネイティブ環境)のネイティブモニタリングを提供します。また、他のサードパーティの監視ツールからアラートを取り込むことにより、適切なイベントコンテキストを提供します。
  • 影響分析。 ビジネスサービスレベルで何が起こっているかを理解するサービスマップ。 ITサービスと基盤となるインフラストラクチャリソース間の相互依存性を理解することにより、根本原因を特定します。
  • 問題の切り分け。 生のアラートを統合して、コンテキストに基づいたイベントに圧縮します。 AIOps推論エンジン。騒音を減らし、ビジネスにとって重要な最も重要な事件に集中することができます。
  • トリアージとディスパッチ。 エスカレーション管理は、効果的なコミュニケーションチャネル(電子メール、音声、SMS、チャット)を使用して、関連するアラートをオンコールスタッフにルーティングします。特定の技術者が時間内に応答しない場合、インシデントが亀裂に陥らないように、アラートが次の対応可能な従業員に自動的に送信されます。
  • 解像度。 スピンアップ リモートコンソール インシデント分析のために分散インフラストラクチャに安全にアクセスします。使用することもできます自動化管理人間の介入なしに修復と解決のために。

次のステップ:

Here's Why You Need A Digital Operations Command Center


Recommended posts