この記事はもともとに掲載されました ソフトウェアテストニュース.

人工知能と機械学習を適用してITインシデントをより迅速かつ正確に解決し、アラートを管理するというアイデアは、この1年で勢いを増しています。 AIOpsは、よく呼ばれるように、まったく新しいスタートアップの市場を生み出しましたが、多くのエンタープライズITリーダーは、これまでのところ慎重な役割を果たしています。これには正当な理由があります。

ただし、リスクがあります。もし AIOpsツール ゲートから外れると、ITと経営幹部の信頼が低下します。そのため、ツールの箱を開ける前に、実装を成功させるためのワークフローを確立することが重要です。

私は大規模企業でAIOpsシステムを評価および展開し、IT運用用のエンタープライズソフトウェアを開発しました。これにより、大規模な組織で高度なテクノロジーを正常に展開する方法について独自の視点を得ることができます。

以下に、計画、構成、テストからリリースまでの7ステップの導入プロセスの概要を示します。

 

ステップ1:計画する

プロジェクトから始めましょう、改善が必要な1つまたは2つのユースケース/ワークロードを選択し、変更を受け入れるチームを用意します。

次に、あなたが持っているスキルを評価します また、主にデータサイエンスと自動化だけでなく、DevOpsと継続的インテグレーションにおいても、外部からの支援やトレーニングが必要になる場合があります。 IT運用担当者は、機械学習分析がどのように機能するかを十分に理解している必要があります。これにより、システムに制御を移したときに、自動制御がどのように機能しているかを監査できます。

選択したユースケースのIT運用プロセスに必要なワークフローの変更を決定します 。たとえば、AIシステムを適用してeコマースサイトのアラートを管理している場合、相関アラートに複数のチームが関与するとどうなりますか?

ユースケースのデータ要件を理解する。データがツールまたはプラットフォームにネイティブでない場合は、十分なコンテキストがない可能性があります。結果として、あなたはからのデータを補足する必要があるかもしれません CMDBまたは代替ソース。

最初のプロジェクトで期待される結果の目標を設定する。これには、アラートノイズの減少、サポートチケットの量の減少、またはインシデント解決の迅速化が含まれる可能性があります。目標とともに、結果を測定および共有するためのプロセスを確立します。

システムの機械学習モデルのトレーニング計画を作成します。 モデルが未成熟でレッスンが学習されている実装の初期の数週間にトレーナーが何を期待すべきかについて、早い段階で期待を設定します。

ステップ2:社交する

計画について知る必要のあるすべての人の準備ができたので、次はユーザーコミュニティを参加させて、意識を高める次のステップに進みましょう。 人々は、新しい豪華なAIマシンが登場することで、仕事がやがてなくなるか、悪化するのではないかと心配するかもしれません。。システムがどのように機能するか、ビジネスおよびIT従業員にメリットがあるか、現在のワークフローがどのように変わるかを人々が理解できるようにします。組織内の伝道者/パワーユーザーを見つけて、情報を広め、必要に応じて他の人を訓練するのを手伝ってください。

ステップ3:理解する

理解段階では、AIOpsシステムの機能とベストプラクティスを実際に深く掘り下げることができます。  

注目すべき点は次のとおりです。

  • AIOpsシステムがどのように機能するかとそのデータ要件を学びます。たとえば、AIをアラート相関に適用している場合、個々のアラート間に関係が存在することを検証するためにトポロジマッピングを含める必要がある場合があります。
  • システムによってどのようなユースケースと問題が解決されていますか?一般的なものには、異常検出、イベント相関、チケットルーティングが含まれますが、その他には通知とアラート抑制が含まれる場合があります。最速の結果をもたらす可能性が高く、運用に悪影響を与えず、チームに迅速な勝利をもたらすことができるものに焦点を当てます。

ステップ4:セットアップ &観察

次に、選択したユースケースに基づいてシステムを構成します。。機械学習を機能させるために数日または数週間の構成が必要な場合は、ソリューションの実行可能性を疑問視する必要があります。

ITオペレーターは、アルゴリズムがデータとどのように相互作用するかを確認し、提案、ガイダンス、および分析を提供できる必要があります。 ソフトウェアが、どのデータセットを使用してどのように結論に到達したかを示すことにより、アクションの透明性を説明できることが重要です。

ステップ5:推奨

AIOpsの能力の一部は、日常的で予測可能なイベントを迅速かつ効率的に処理する機能です。 。このような場合、IT運用によって定義され、システムは修正を引き継いで適用するように構成されます。

これにより、時間が節約され、既知の問題(VM /サーバーの使用率のしきい値やパッチの更新など)に対する標準的な応答が保証され、より深刻なカスケード問題の発生を防ぐことができます。サンドボックスや重要ではないワークロードなどの安全な環境では、システムがこれらの日常的なタスクを自動化し、結果を監視できるようにします。

ステップ6:デプロイ

テストとパイロットの結果に満足したら、今度はシステムを本番環境でオンにします。 システムをテストモードで少なくとも数週間実行して、出力が正確であることを確認します そして、ユーザーは推奨事項に満足しています。

ステップ7:確認する & リファイン

数週間の運用後、元の目標に照らして結果を確認します。たとえば、アラートノイズの削減が目標だった場合、どのような改善がありましたか?

最初に設定した特定の指標の目標と照合するほかに、ユーザーの定性的調査を実施します 彼らの課題と、これまでに見たメリットについて学びます。次に、必要に応じて、改良、再トレーニング、および/または必要に応じて、新しいユースケースを選択できます。

人工知能は絶えず進化する分野と技術です。複雑さのためにリスクがあるように思われるかもしれませんが、単純化された計画と展開の計画に分解すると、成功が見られます。

次のステップ:

State-of-AIOps-report-CTA


Recommended posts