停止はIT運用の避けられない部分ですか?今年私たちが見た混乱を見ると、答えは確かにイエスのようです。 2018年の第2四半期にヘッドラインにヒットした3つのインシデントは次のとおりです。

  • 4月、英国のTSB銀行は、2週間続いた壊滅的な停止に見舞われ、 200万人近くの顧客が立ち往生 。銀行のCEOであるポールペスターは、年間ボーナスで数百万を失い、銀行は顧客に巨額の損害賠償を支払わなければなりません。
  • 5月、オーストラリア最大の通信プロバイダーであるTelstraは、全国規模の大規模な停止を経験し、加入者は音声およびデータサービスに何時間もアクセスできなくなりました。停電後、会社の株価 1999年以来の最低レベルに落ちた .
  • 6月、メッセージングアプリSlackが4時間近く停止しました。  何百万ものユーザーに影響を与えました。 2018年だけでも、Slackは そのサービスへの5つの混乱 .

ITの停止がいつ発生するかを予測することはできませんが、 停止にどのように対応するかは、十分に制御できます。 。 ITインシデントを処理するための確立されたフレームワークがありますか?または、対応チームは重大な緊急事態にゆっくりと反応し、非生産的な議論で時間を無駄にしますか?迅速で調整された インシデント対応 より迅速な回復を推進し、顧客の信頼を維持し、費用のかかる経済的および評判の損害を回避します。    

Incident Management System (IMS): A Survival Manual For The Fire Department

消防士が、数秒の遅延が人命と財産の損失につながる可能性がある大規模な緊急事態をどのように処理するのか疑問に思ったことはありますか? ITチームは、インシデント管理について消防署からどのような貴重な教訓を学ぶことができますか?これらの質問に答えるために、ベテランの消防士、ロブシュネップ、ロンヴィダル、クリスハーレイは次のように書いています。 運用のためのインシデント管理、消防署がどのように リスクが高く、意思決定環境が悪く、状況が変化し、結果が不確実である、時間に敏感なインシデントを管理します。

消防署は長い間使用してきました インシデント管理システム (IMS) 日常の火災から大規模な緊急事態まで、あらゆる種類の事件を処理します。 IMSは、インシデント対応のための共通言語を提供しているため、消防署は、すべての危険、すべてのリスクのイベントに予測可能かつ効率的な方法で対応できます。

組織に年間7000億ドルの費用がかかる停止、企業には適切な「リーダーシップ、コラボレーション、および共有作業パターン’は、重大度の高いITインシデントに対処します。これが本からの3つのベストプラクティスです  組織内で適切なインシデント対応パターンと習慣を構築するため。

実践#1-インシデント対応のプロセスを確立する

インシデントをできるだけ早く解決することを検討している場合、IT運用チームは、インシデントを効果的に管理するために何が必要かについての共通の理解が必要です。あなたは最初にあなたを評価する必要があります 現在のインシデント対応プロセス 何がうまくいっているか、何を変える必要があるかを学ぶために。

The-Incident-Lifecycle

Figure 1 - インシデントのライフサイクルを管理するための堅牢なプロセスを確立します(出典:運用のためのインシデント管理)。

本に概説されているように、頭字語は 処理する 生産的なインシデント対応プログラムに必要な7つの属性を示します。

  • 予測可能な -インシデント対応者は、自分の役割と責任について明確にしていますか?彼らは、誰がオンコールで、誰が緊急時にバックアップとして利用できるかを知っていますか?
  • 繰り返し可能 -インシデントの急な通知で適切な専門家を集めることができますか?チームは、時間帯や曜日に関係なく、一貫して対応しますか?
  • 最適化 -レスポンダーは、停止時に効果的に貢献できるように適切にトレーニングおよび装備されていますか?インシデント対応のための明確なエンゲージメントルール、正式なトレーニングプログラム、および定義されたSLAはありますか?
  • クリア -個人は、なぜ彼らが必要なのか、そして事件で彼らが果たす役割について明確にしていますか?それらは同じ視点を共有し、停止を処理する目的の統一性を持っていますか?
  • 評価済み -改善の領域を特定し、欠陥を改善するための是正措置を講じることができますか?インシデントライフサイクルの各領域を確認して、次回の対応を迅速化しますか?
  • スケーラブル -さまざまな種類のインシデントに対応する適切な専門家を集めましたか?インシデント間で適切なローテーションを提供することにより、燃え尽き症候群を防ぐために同じ個人に依存することをやめることができますか?
  • 持続可能な -インシデント管理に取り組むための適切な個人を候補リストに入れることができますか?優れた才能を引き付け、維持するための適切なインセンティブがありますか?

プラクティス#2-インシデント管理は戦時中の活動です

ダウンタイムは、会社の収益と評判に悪影響を与える可能性があります。調査会社のアバディーンは、1時間あたりの平均ダウンタイムコストは163,674ドルです 。重大な事件に直面したとき、シフト に 戦時モード 稼働時間を最大化し、操作を通常に戻します。

最大の効率と最小の時間でインシデントを解決するには、次の3つの要素が必要です。

Resolve_incidents図2-適切な材料セットを使用してインシデントを効果的に解決する (出典:運用のためのインシデント管理).

戦時中のインシデントに対処するには、インシデント管理システムを使用して、インシデントコマンダーのリーダーシップの下で適切な対象分野の専門家をタイムリーに編成します。会社の評判、市場での地位、財政状態を保護するのに役立つ効果的なインシデント対応プロセスを確立することができます。  

練習#3-インシデントコマンダーでカオスを制御する  

インシデント管理は人から人への活動であることを考えると、 インシデントコマンダー 全体的な行動計画を作成し、SMEと協力して解決のための適切な戦術を見つけ出し、より広範なチームにインシデントのタイムラインに関する情報を提供し続けます。

Incident_Commander_handlesFigure 3 - インシデントコマンダーは、適切な専門家チームとの対応を処理します(出典:運用のためのインシデント管理)。

では、インシデントコマンダーは実際に何をしているのでしょうか。 インシデントコマンダーは、インシデントのライフサイクルを次のように管理します。  「インシデントレスポンダーのグループ全体の要約、統合、および理解の確保。」 インシデントコマンダーはこの問題に直接取り組むのではなく、ドメインエキスパートのチームを編成して主導し、対応を管理します。中小企業間で慎重かつ慎重な話し合いを促進し、トラブルシューティングとサービス復旧のための適切な攻撃計画を作成することが指揮官の仕事です。  

結論

重大度の高いインシデントに直面したときに、チームは混乱に陥りますか?停止中に白熱した論争の的となった議論がありますか(またはより涼しい頭が優勢ですか)?ストレスなく重大なインシデントを管理したい場合は、ぜひチェックしてください。運用のためのインシデント管理 消防署がさまざまな状況で対応を管理する方法を学びます。

Embrace digital transformation


Recommended posts