重要なイベントのコンテキストで根本原因をより迅速に見つける

IT環境で解決が難しい断続的な障害がありますか?履歴データを見ても失敗の根本原因にたどり着くことができませんか? ITプロセスの自動化は、運用効率の向上、応答時間の改善、およびエラー率の削減に役立ちます。

重大な障害イベントが発生した場合、回避できる限り多くのコンテキストが必要ですイベントの前、最中、後に何が起こったのか。システムで実行されている主要なOSプロセス、ネットワークの状態、システムパラメータなどの情報は、「重要なイベントのコンテキスト」。このような情報は、根本原因を数分以内に絞り込むことと、干し草の山で針を追いかけるのに数時間または数日かかることの違いを意味する可能性があります。

イベントコンテキストは、イベント中のシステムの「スナップショット」としてのみ使用でき、後で履歴レコードとして使用することはできません。 IT運用ツールは、インシデント中のイベントコンテキストもキャプチャできる必要があります。 OpsRampの自動化フレームワークは、一貫性のある効率的な方法でイベントコンテキストをキャプチャするのに役立ちます。

Python、Perl、Bashなどのお気に入りのスクリプト言語でイベントコンテキストを収集するスクリプトを作成できます。次に、スクリプトをRunbookとしてOpsRampにアップロードします。 OpsRampのモニターがイベントをトリガーしたときに実行するようにRunbookを構成できます。イベントが発生すると、 OpsRampはスクリプトを実行し、イベントコンテキストをキャプチャして、そのコンテキストをイベントに添付します。イベントのトラブルシューティングを行うと、このすべてのコンテキストをすぐに利用して、根本原因を診断できます。とても簡単です!


Recommended posts