自動アラート抑制管理で過剰なアラートを抑制

OpsRampの自動アラート抑制管理は、冗長でノイズの多いアラートを減らすための最初の応答アクションを提供します。学習ベースのファーストレスポンスポリシーにより、ITチームは、アラームしきい値を構成し、フィルター基準を定義し、時間間隔を指定することにより、リソースのターゲットセットに対して静的ルールを作成する必要がなくなります。 

このブログシリーズのパート1、OpsRampのファーストレスポンスポリシーにより、気を散らすものを減らし、ストレスを減らし、重要な優先事項に焦点を当てますOpsRampが時間ベースと属性ベースの両方の抑制を提供して、誤検知を除外し、関連するアラートのみを配信する方法について説明しました。この投稿では、ファーストレスポンスポリシーがノイズリダクションの特定のユースケースに対処するのにどのように役立つか、およびOpsRampで自動アラート抑制管理を構成する方法を共有しています。 

IT運用チームは、次の実際のシナリオにファーストレスポンスポリシーを使用できます。

  1. 継続的デリバリー、展開、および統合。動的で分散型のハイブリッドインフラストラクチャでホストされている最新のデジタルサービスの可用性と状態を追跡することは、継続的な課題です。エンタープライズDevOpsチームは、実際に本番環境にデプロイする前に、ステージング環境と実稼働前環境の両方でデジタルサービスを頻繁にテストするようにします。 OpsRampのファーストレスポンスポリシーは、DevOpsプロが配信パイプライン全体でノイズの多いアラートストリームをすばやく分類し、情報および季節的なメトリックベースのアラートを無視することで時間と労力を節約するのに役立ちます。 
  2. 標準変更の実装。 すべてのIT部門には、運用ライフサイクル中に実行される変更管理プロセスの標準セットがあります。ファーストレスポンスポリシーは、重要なパフォーマンスアラートを見逃さないようにしながら、変更管理プロセス中に発生するアラートを自動的に抑制することができます。 
  3. IT停止中の重複アラートを排除します。エンタープライズITサービスは通常、複数のITインフラストラクチャサービスに依存しています。停止中、専用のロードバランサーの障害は、他の基盤となるインフラストラクチャコンポーネントの機能に影響を与える可能性があります。このシナリオでは、ネットワークチームは、これらすべての異なるコンポーネントにまたがるアラート通知で溢れかえる可能性があります。 OpsRampのインテリジェントな推論および自動アラート抑制ポリシーにより、ITチームは、根本原因を特定し、問題を迅速に解決するのに役立つコンテキストアラートのみを受信できます。 

OpsRampでの自動アラート抑制管理の構成 

ITチームは、上記のユースケースに対処するためにOpsRampで自動アラート抑制管理を構成できます。時間ベースの自動アラート抑制は、季節的なアラートを識別し、そのようなアラートがITイベントストリームに表示されないようにします。属性ベースの自動アラート抑制は、特定の基準に一致するアラートを保留し、コンテキストが豊富なアラートのみをオンコールサポートチームに配信します。 OpsRampでファーストレスポンスポリシーを構成する方法は次のとおりです。 

  1. OpsRampポータルの[設定]タブに移動します。 [サービスレベル管理]で[最初の応答]を選択します。
    Navigate_Setup_tab
  2. 自動アラート抑制ポリシーを関連するクライアントリソースに適用します。 「追加」をクリックして、アラート抑制ルールを定義します。
    First-Response-Policies
  3. [フィルター基準]で、ITチームは一連のデバイスまたはそのテナント全体のルールを定義できます。構成ルールは、DevOpsライフサイクルの開発、テスト、およびデプロイの各フェーズでアラートを自動抑制するのに役立ちます。
  4. [ポリシー定義]セクションでは、時間ベースの抑制(季節パターンを分析し、人間の介入なしにアラートを抑制する)または属性ベースの抑制(特定の条件に一致するアラートを抑制する)のいずれかを選択できます。属性ベースの抑制では、ITチームは、正確なアラートパターンの認識と検出のために、さまざまなアラート属性を含むCSVシートをアップロードする必要があります。
    Policy_Definition_section
  5. サイト信頼性エンジニアは、サンプルのCSVファイルをダウンロードし、必要なアラート属性を入力してから、CSVファイルをOpsRampポータルにアップロードすることもできます。
    Sample_CSV_file
  6. CSVファイルをアップロードした後、インシデント管理チームは、特定のアラート発生の自動抑制基準を使用して機械学習モデルを微調整およびトレーニングできます。
    auto-suppression_criteria
  7. IT運用チームがITイベントに影響を与えるさまざまな要因をよりよく理解すると、CSVファイルをより正確で関連性のある情報で更新できます。 

次のステップ:

State of AIOps report CTA

Recommended posts