アラートノイズは、IT組織で史上最高に達しています。さまざまなツールやテクノロジーからのこれらのアラートの量は、ユーザーと顧客のサービスとアプリケーションを適切に管理、保護、最適化するIT組織の能力を大幅に損なうレベルに達しています。AIOpsに関するDEJの最近の研究組織は現在、コンテキストに依存せず、アクションを実行できないアラートに起因する回避可能なインシデントのエスカレーションに年間127万ドルを費やしていることがわかりました。これは多くの面でビジネスを脅かし、企業のITの信頼性と実行可能性を損ないます。
それでも同時に、この警告の混乱の背後にあるテクノロジー変革の進行を遅らせたいと思う人は誰もいません。クラウドネイティブサービス、リアルタイム分析、およびソフトウェア定義のインフラストラクチャは、ITがビジネスに力を与え、新しい意味のある方法で顧客を支援するための大きな勢いを生み出しています。したがって、このデータを管理し、ビジネスおよび顧客のイニシアチブをサポートするための費用効果の高い方法を見つける必要があります。これがOpsRampの使命です。
ほとんどのデジタル運用チームにとって、アラートのフィルタリングとアラートの即時対応が必要なものの識別は、非常に手動のプロセスです。これに照らして、機械学習アルゴリズムは、AIOps、アラートをすばやくフィルタリングして相互に関連付け、オペレーターが重要な問題にすばやく集中できるようにします。場合によっては、AIOpsツールが推奨される一連のアクションを提案したり、ポリシーで指示されている場合は問題を自動的に修正したりします。
例えば、 Zebra TechnologiesOpsRampを使用してアラートノイズを低減し、さらに重要なことに、エンドユーザーのパフォーマンスの問題に対処するためのスタッフの時間を改善することに成功しました。 Zebraのサービス提供オペレーションのマネージャーであるTommyEurickは、次のように述べています。「アラートが多すぎると、人々はアラートを無視するという考え方に陥り、問題が発生します。OpsRampを使用すると、私のチームが受け取るアラートはより意味があり、実用的です。」
OpsRampは最近、顧客データの分析を実施して、組織が最新のIT運用管理でどのような結果を達成できるかを正確に調べました(ITOM) プラットホーム。私たちの分析は、アラートの重複排除によるアラートの量の削減、アラートの重大度の変化、およびデータセット全体の相関に焦点を当てました。6か月の期間で100を超える顧客環境にまたがる5,680万件のアラート。
まず、いくつかの簡単な定義:
- 重複排除 重複または冗長なアラートを削減または排除するプロセスです。
- アラートの重大度の変更は、警告から臨界値まで、またはその逆の同様のメトリックについて、さまざまな段階でしきい値違反中に複数のアラートが生成されるシナリオです。
- ML- based Correlation は、関連するアラートを、パターン検出、学習されたパターン、および共有属性に基づいて推論にグループ化するプロセスです。このようなアラートは、次のように、依存するインフラストラクチャリソースから発生する可能性があります。
-
- シナリオ1:シナリオ1:複数のリソースにわたる複数のメトリックアラート
- シナリオ2:シナリオ2:1つのリソースに複数のメトリックアラート
- シナリオ3:シナリオ3:複数のリソースにわたる単一のメトリックアラート。
私たちのアプローチ
私たちのデータサイエンスチームは、多数の顧客データセットにわたってOpsRampの現在のアラートトレンド相関モデルのパフォーマンスを測定しました。彼らは、重複排除モデルの効果を単独で測定し、次に、相関と組み合わせた重複排除の効果を測定しました。これらの方法は、相関基準を追加することにより、モデルのパフォーマンスをわずかに低下させます。したがって、測定した結果は、相関モデルのパフォーマンスの上限を表しています。
OpsRampのアラート相関カテゴリ
- クラスタリング。 類似性を分析し、さまざまなアラートを1つのアラートに相互に関連付けることにより、属性に基づいてイベントをクラスター化します。
- 相関関係。アラートシーケンスパターンを分析してアラートを相互に関連付け、インシデントの根本原因を特定します。トポロジマップを使用すると、適切な状況コンテキストと影響分析を使用して、インシデントの根本原因アラートを特定できます。
実行した手順は次のとおりです。
- ネイティブおよびサードパーティのソースからの生のアラートは、重複を排除するためにOpsRampのアラートエンリッチメントモデルを通過します。
- 正規化されたデータはOpsQエンジンに送られ、MLを使用してデータのパターンを認識し、以前の実装とアラート仕様からの経験豊富なデータを表示して、モデルをトレーニングして作成するための相関ルールを導き出します。推論.
- 推論を作成した後、モデルを介して送信されたアラートの数と相関したアラートの数を使用して、アラートのボリューム削減の可能性を計算します。
[注:モデルのパフォーマンスに影響を与える変数には、次のものがあります。データセット内のアラートの数。アラートの期間。アラートボリュームの密度。]
短期間のアラート統計-顧客の現在までの年(2020)。
結果
高度な相関モデルと組み合わせた重複排除モデルにより、摂取される生のアラート量が92%削減されました。これは、現代のIT環境における実際の問題点に対処するためのOpsRampOpsQのAIと機械学習の力の説得力のある証拠です。 アラートの量を減らすことで、貴重なスタッフの時間を節約し、重要なビジネスサービスをサポートするインシデントの特定と解決にスタッフが集中できるようになります。このテクノロジーの最終目標は、アラートを相互に関連付けてノイズを減らすだけでなく、どのアラートが重要なビジネスサービスに関連付けられ、場合によっては悪影響を与えるかを発見することです。この情報は、ITチームが最初に重要な問題に焦点を合わせ、顧客に可能な限り最高のパフォーマンスと可用性を提供していることを確認するためのコンテキストを提供します。
上のグラフでは、重複排除によるアラートボリュームの減少の割合が赤で示され、重複排除に加えて相関関係によるアラートボリュームの減少の割合が青で示されています。各クライアントのバー全体は、重複排除と相関による全体的なアラートボリュームの削減の可能性を示しています。
入門
OpsRampのすべてのお客様は、ネイティブイベント管理ソリューションの一部としてアラート重複排除機能を利用できます。顧客は、機械学習ベースの相関を有効にすることを選択できます。これにより、平均してアラート量がさらに51%削減されます。 OpsRampには 観測モード とおすすめモード、ユーザーが機械学習への信頼を築くことができる機能。
の使用を開始する方法の詳細については、 OpsRampOpsQイベント管理エンジン、私たちの訪問ドキュメントサイト そしてこれをチェックしてくださいよく見るブログ投稿 と テックトーク インテリジェントアラートエスカレーションについて。