AI:現実になりましょう

この記事はもともと ツールボックス.

IT組織におけるAIと機械学習ツールの可能性についての誇大宣伝はチャートから外れました。期待を和らげ、賢明な採用パスに向かって進む時が来ました。

「AIOpsプラットフォームの採用(特に、マシンデータ、イベント、テレメトリ、ログ管理指向のツール)は、監視と根本原因分析の取り組みをサポートするために増え続けています。これは、複数のドメインにわたって非常に複雑な診断タスクを迅速に実行およびサポートする能力によるものです。」 - ITパフォーマンス分析のハイプサイクル、2018年。

今日の多くのIT運用ベンダーの熱狂的な宣言にもかかわらず、人工知能はデータセンターに散りばめられた妖精ではありません。数年前、AIはウエディングケーキの上の花嫁でした。それは完璧で、時代遅れのエラーや制御不能なパフォーマンスの問題を引き起こす可能性がありました。それはITの仕事をとても簡単で楽しいものにするでしょう。しかし、ほとんどの場合、コンセプトは美しいファンタジーのままです。 CIOは、AIと機械学習の背後にある実用性に非常に密接に疑問を投げかけています。それはそう、 ガートナーの2019年ITSMのハイプサイクル AIOpsはITに変革のメリットをもたらしますが、少なくともあと5年間は主流にならないだろうと予測しています。

ITにおけるAIの実用的で最も安全な目標は、これです。オペレーターやその他のエンドユーザーは、AIの洞察を使用して、意思決定をサポートする必要がありますが、放棄することはできません。 IT担当者は、マシンを完全に信頼しているわけではなく、信頼すべきでもありません。まず、物語を修正しましょう。 AIは真の人工知能ではなく、意思決定を行うようにプログラムされたアルゴリズムです。第二に、AIが100%正確になることは決してありません(これが「AIOps」の元の定義が IT運用のためのアルゴリズムインテリジェンス)。分析と推奨事項を確認するには、コンテキストと人間の知性が必要です。

いくつかの例を見てみましょう。

トリアージ

私の会社であるOpsRampでは、AIで強化された監視ツールを使用しています(AIOps)問題が表面化したときに誰がアラートを受信するかを決定するのに役立ちます。これにより、問題の原因を特定し、今すぐ修正できる人を調査するためにかかる手動の時間が大幅に短縮されます。システムは、履歴イベントに基づいてアラートの送信先を提案し、オペレーターはアラートの送信先について最終的な呼び出しを行います。何でこれが大切ですか?経験豊富なIT運用の専門家によるチェックがないと、AIはアラートの特性を誤って認識し、間違ったグループにエスカレーションする可能性があります。他のタスクで忙しいこれらの個人は、アラートを無視するか、アラートへの対応を遅らせることを選択できます。次に、問題がエスカレートしたり、環境内でより深刻な他の問題を引き起こしたりする可能性があります。

修正を適用する

組織が根本原因分析を支援するためにAIOpsを導入しているとしましょう。これは、テクノロジーのますます一般的かつ効果的な使用法です。おそらく、ビジネスサービスの実行が遅いです。システムは自動的にスクリプトを実行してデータベースを安全に再起動し、問題が解決するかどうかを確認できます。害はなく、潜在的な時間が節約されます。ここで、再起動しても問題が解決せず、AIシステムが問題を解決するために次のステップを系統的に進め始めたとしましょう。その結果、問題のあるワークロードを移植するための新しいクラウドリソースが調達され、不要なコストが追加され、別のソリューションが利用可能な場合は無秩序に増加する可能性があります。さらに悪いことに、AIが認識していない相互依存関係があります。自動化されたアクションは、eコマースサイトを停止したり、適切なセキュリティ保護なしで顧客データを含むワークロードをインフラストラクチャリソースに転送したりするなど、より多くの害をもたらす可能性があります。

AIと人間のブレンド

上記のシナリオを回避するために、ITは、人間の意思決定と推奨される行動方針の確認を組み込んだ、AIへの混合アプローチを必要としています。 ITオペレーターは、シナリオに関する知識と、インシデントの検出、管理、および解決で発生する一連のイベントに基づいて、適切なAI自動化ワークフローを設定する方法を学ぶ必要があります。大まかに言うと、混合アプローチの仕組みは次のとおりです。

相関関係と根本原因分析:AIツール は、クラウド内の外部ワークロードを含む、インフラストラクチャ全体の膨大な量の異種データの分析から相関関係を作成することに長けています。アラートを重複排除して、ノイズを削減し、異なるデータセット間のパターンを見つけて、問題の最も可能性の高い原因を調査できます。汚い仕事をした後、運用の専門家は分析をレビューし、彼女自身の研究と知識を追加して、最も正確な根本原因に到達することができます。

修正を提案して適用する

AIは最善の行動方針を強調することができますが、オペレーターは先に進む前にまず知識を確認して追加します。オペレーターは、自分で問題を修正するか、リスクの低いアクションの場合は、AIツールをプログラムして問題を処理するかを選択できます。これらのタスクには、パッチの更新、パスワードのリセット要求の処理、または電子メール要求のトラブルチケットへの変換が含まれます。これらの例では、AIはインシデントごとに数分を節約でき、1週間でかなりの合計になります。

IT運用リーダーとデータサイエンティストは、AIテクノロジーを環境の監視、管理、最適化に適用するための適切な戦略を策定する上で重要な役割を果たします。ツールは、自由に、どれだけのことができるようにすべきですか?これらの決定には、ビジネスチャンスとビジネスリスクのバランスをとる必要があり、その過程で多くの調整が行われる可能性があります。

AIOpsは、オペレーターが時折間違った決定をすることから保護しません。利点は、ITOpsチームが問題を調査するための可視性と洞察を高め、インフラストラクチャが進化するにつれて結果をより早く改善できることです。 AIが日常的なタスク(調査、相関、ノイズのフィルタリング、簡単で日常的な修正の適用)にかかる時間を節約できるようにすることから始めます。これらの高価でオクタン価の高いツールを組織の領域に実装します。これらのツールは、利害関係が最も高いときにユーザーが最善の意思決定を行えるようにする上で最も大きな影響を与える可能性があります。

次のステップ:

State-of-AIOps-report-CTA


Recommended posts