OpsRamp OpsQ:最新のIT運用のためのデータサイエンスインサイト

ITの停止が新しい正常な理由

ITの停止は 世界で最も頻繁な自然災害。予期しないテクノロジーの不具合により、飛行機に乗ること、家族のために夕食を注文すること、または適切なタイミングで株式ポートフォリオを販売することができなくなる可能性があります。今年、主要な組織で評判の低下、経済的損失、顧客離れを引き起こした最近のITの停止を次に示します。   

  • 4月に失敗したITアップグレードにより、英国のTSB銀行で一連の停止が発生し、顧客は数週間オンライン銀行口座にアクセスできなくなりました。停止により、銀行は2億ドル以上のコストをかけ、200万人の顧客に影響を与え、 CEOのポール・ペスターについに辞任を余儀なくされた 9月中。  

  • 内国歳入庁(IRS) 重大なシステム停止に見舞われた パッチが適用されていないファームウェアのバグのため、納税申告の最終日(4月17日)。 11時間の停止のおかげで、500万人の納税者が税金を申告することができませんでした。 IRSは、納税者が期限内に申告書を提出できるように、期限をもう1日延長しました。 

  • 英国で2番目に混雑する空港であるガトウィック空港は、8月に、飛行時間とゲート番号を表示するためのホワイトボード。空港のフライト情報表示システムは、光ファイバーケーブルが損傷したため、約8時間機能を停止しました。混乱により、乗客はフライトの場所を二度と推測し、ホリデーシーズン中にフライトを逃すことになりました。

救助へのAIOps

ITの停止は短期的に大きな問題を引き起こしますが、アナリスト企業のIDCは次のことを発見しました。 組織の50%は、技術関連の大きな混乱に耐えられません それが彼らに当たったとき。デジタル障害の頻度が毎年増加しているだけであることを考えると、IT運用チームは、重大な状況に対処するための新しいアプローチを必要としています。 の新たな分野 service-centric AIOps は、パターンを検出し、異常を識別し、ハイブリッドインフラストラクチャ全体のイベントを理解するために非常に必要とされている万能薬です。

AIOpsは、機械学習、ネットワークサイエンス、組み合わせ最適化、その他の計算アプローチなど、幅広いテクノロジーアプローチを活用して、日常のIT運用上の問題を大規模に解決します。企業は、インテリジェントアラート、アラート相関、アラートエスカレーション、自動修復、根本原因分析、容量最適化など、AIOpsを使用してさまざまなIT管理アクティビティに対処できます。

OpsQを使用して原因と結果をより適切に特定する

今週、発表しました OpsRamp OpsQ、サービス中心のAIOps向けのインテリジェントなイベント管理、アラート相関、および修復ソリューション。 OpsQは、機械学習アルゴリズムを使用して、増え続けるパフォーマンスデータの監視、分析、自動化を実現します。

では、OpsQは実際にITイベントを大規模にどのように管理しているのでしょうか。 OpsQは、最新のITチームにイベント管理の超能力を提供し、以下を使用してインシデントの検出と対応を高速化します。   

  • アラートの生成。 ネイティブイベントとサードパーティイベントを統合する機能により、全体的でクロスドメインのITの可視性を獲得します。

  • 摂取。 膨大な量のITイベントデータを正規化および分析することにより、関連する洞察を抽出し、将来の結果を予測します。

  • 推論。同じ一般的な原因に根本的に関連する複数のイベントを重複排除して相互に関連付けることにより、予期しないパターンを検出します。

  • 最初の応答。 アラートを抑制し、繰り返し発生するインシデントを修正するためのRunbookを開始することにより、自動修正を推進します。

  • Escalation. オンコールスタッフに合わせた通知でサービスをより迅速に復元し、優先度の高い問題のインシデントを自動的に作成します。

IT Event Management & Analysis

図1-ITイベントの管理と分析のためのOpsQの5段階のアプローチ。

より鋭い直感と迅速な意思決定のための推論モデル

OpsQは、ITアプリケーションとインフラストラクチャスタックに適用できる3つの異なる推論モデルを提供します。推論モデルは、フィルター基準を設定し、分析モデルを特定のタイプのITリソースに適用する機能を提供します。 OpsQの推論モデルはセットアップと構成が簡単であるため、着信アラートストリームをすぐに分析できます。

  • トポロジー。 ITサービスと基盤となるインフラストラクチャの関係を理解します。適切な状況コンテキストと影響分析を使用して、インシデントの根本原因アラートを特定します。

  • クラスタリング。 類似性を分析し、さまざまなアラートを1つの推論アラートに相関させることにより、属性に基づいてイベントをクラスター化します。

  • 共起。 既存のアラートのアラートシーケンスパターンを分析して、アラートを相互に関連付け、インシデントの根本原因を特定します。

AIOps Inference Models

図2-OpsRampの3つの推論モデルを使用して統計的証拠と推論を活用します。

OpsQを使用してインシデントのライフサイクルを管理する

OpsRamp OpsQは、機械学習と人工知能の途方もない可能性を利用して、ビジネス運営に対するテクノロジーの混乱の問題に対処します。企業は、OpsQを活用してアラートごとに費やされる人的時間を削減することにより、運用効率を高め、ITインフラストラクチャ管理の生産性を向上させることができます。

  • ビジネスサービスへの影響。 ITサービスとインフラストラクチャワークロード間の相互依存性を理解することにより、根本原因を特定します。
  • ノイズ減少。 パフォーマンスの問題をより正確に予測できるように、生のアラートをコンテキストが注入されたイベントに統合および圧縮します。
  • インシデント対応。 ハイブリッドインフラストラクチャの問題に対するプロアクティブな洞察により、通知の過負荷と無秩序なインシデント対応の問題を修正します。
  • 迅速な解決。効果的なコミュニケーションチャネル(電子メール、音声、SMS、チャット)とオンコールスケジュールを使用して、関連するアラートを関連するスタッフにルーティングします。


OpsQの動作を見る

 

次のステップ:

On-Demand-Webinar-CTA-AIOps


Recommended posts