よく見る：可観測性

記事上で：

可観測性と監視がどのように異なり、互いに補完し合うか。
現代のIT環境で可観測性が普及している理由。
可観測性がシステムの動作にさらに重点を置くことで、ITチームが新しい未知の問題を解決するために必要なコンテキストをどのように提供できるか。

クラウドインフラストラクチャ、コンテナ、サーバーレステクノロジー、アプリケーションとデバイスの増え続けるフットプリント、IoT、SDN、オープンソース開発ツールなどにより、エンタープライズITシステムがより複雑になり、分散するにつれて、パフォーマンス監視の実践ははるかに多くなりました。微妙なニュアンス。これらの最新のIT環境では、既知の問題を中心とした従来の監視手法では不十分です。また、「可観測性」について人々が話しているのをよく耳にします。この用語は、電気技師の仕事に起因していますルドルフ・カルマン.

可観測性がモニタリングとどのように異なるか、またはモニタリングを補完するかについては、多くの意見があります。これでブログ投稿、これを現代のIT運用の重要な特徴として説明しました。「可観測性は、アプリケーションの開発と豊富な機器に焦点を合わせているため、オペレーターがソフトウェアの動作について任意の質問をすることができるという点で、監視とは異なります。」可観測性の1つの目標は、新しい未知数を発見することです。

ナンシーゴーリング、シニアアナリスト 451リサーチは、以下のビデオで、クラウドネイティブテクノロジーを管理するためのスマートな方法としての可観測性について説明しています。「アイデアは、質問に答えるために、システムに関して収集された運用データを柔軟に掘り下げることができるようにすることです。現在、システムをより複雑で動的にするクラウドネイティブテクノロジーを採用している組織や、従来の監視がうまく機能しない組織で人気があります。」

可観測性の実践を採用すると、次のような質問をしたり回答したりするのに役立ちます。

分散アプリケーションのさまざまな部分がどの程度うまく機能していますか？
小さな信号セットを使用して、複雑で相互接続されたシステムの内部機能を理解できますか？
アプリケーションのユーザーエクスペリエンスに予期しない問題を引き起こす可能性のある特定のパフォーマンスの変動を特定できますか？
分散型アプリケーションを簡単にデバッグおよび復元するための適切なシグナルがありますか？

もう1つの観点として、Cindy Sridharanは、このテーマについて詳細に説明します。中くらい: 「監視は、システムの全体的な状態を報告するのに最適です...そして、時系列ベースの計測、既知の障害モード、およびブラックボックステストから導出された主要なビジネスおよびシステムメトリックに限定するのが最適です。」彼女はさらに、可観測性はシステムの動作に関する非常に詳細な洞察を提供することを目的としており、必ずしもインシデントやユーザーの苦情にリンクする必要はないことを説明します。

なぜ今、可観測性のための機能が必要なのですか？

クラウドとソフトウェアで定義されたインフラストラクチャにより、システムとアプリケーションがより分散され、一時的なものになっているため、問題があるかどうかは常にわかりません。問題の原因は、ましてや次のとおりです。

リソースは頻繁に変化しており、仮想環境とクラウド環境の舞台裏で変化しています。
クラウドとオンプレミスのデータセンターで実行されているシステムとコンポーネントの間には、はるかに多くの相互依存関係があります。
APIにより、アプリケーションがどこに存在するかに関係なく、アプリケーション間の緊密な統合が可能になり、相互接続された脆弱な関係が絡み合います。
すべての環境への可視性を常に達成することは困難です。

クラウドコンピューティングの成熟のこの段階では、ITおよびビジネスの幹部は、数時間または数日にわたってユーザーに影響を与える頻繁または長期にわたる停止やアプリケーションの不具合に対する忍耐力が限られています。監視と可観測性を組み合わせると、IT運用チームがインシデントの根本原因にすばやく到達するのに役立ちます。これは、ビジネス価値を提供する上で重要な要素です。

IT管理および監視の実践に可観測性を組み込むことを開始するには：

収集するデータ型を広げます。 可観測性には、CPU使用率や遅延など、従来の監視サーバーおよびネットワークメトリックよりも多くのものが必要です。新しい質問を可能にするために、すべてのインフラストラクチャコンポーネントからのログ、トレース、メトリック、およびアラートを含めます。

New tools: 最新のIT環境の複雑さと流動性には、システムとネットワークの動作をより深く理解する必要があります。これは、標準のダッシュボードを使用する従来の監視システムでは提供できません。多くの異なるオンプレミス、仮想、クラウド環境からデータを収集して組み合わせ、そのデータを迅速に相互に関連付けて新しい洞察に到達できるツールが必要になります。私たちを見てください最近のウェビナー OpsRampがデジタルコマンドセンターとして機能し、データの洞察とイベント管理を調整する方法を学びます。

New skills: IT運用担当者、特にSREには、次のスキルが必要です。インフラストラクチャの自動化セルフサービスツールの作成、問題解決機能、調査への強い関心などが含まれます。大規模なデプロイ、DevOpsの経験があり、マイクロサービス、クラスター管理、コンテナー、クラウドを含む複雑なアーキテクチャを理解している必要があります。最後に、最高の可観測性のプロは、ITインシデントの全体像を明確なユーザー/顧客のニーズにマッピングするための鋭いビジネス洞察力を持っています。

次のステップ：

見る オンデマンドウェビナー 451 Research： IT運用の成熟度の4つのフェーズ.
私たちに参加するTechTalksウェビナー 4/21： AIOpsが企業を変革できる5つの方法
以前を読むよく見る のブログインテリジェントなインフラストラクチャの監視.