サイト信頼性エンジニアリングは、Googleが世界を征服するのに役立ちます

Googleはどのように機能しますか 35億回の検索ごと 1日あたり1.2兆回の検索 世界の年?何が必要か疑問に思ったら、 サイト信頼性エンジニアリング:Googleが本番システムを実行する方法 すべての答えがあります。この本は、操作に必要なものを説明しています 世界中の視聴者向けのハイパースケールインフラストラクチャ。

世界を支配するためのGoogleの秘密兵器はサイト信頼性エンジニアリング。 SREはITOpsの豪華なラベルだと思われるかもしれませんが、真実からかけ離れたものはありません。ベンジャミントレイナースロス Googleの4,000人のサイト信頼性エンジニアのチームを率いています。 Treynor(ソフトウェアエンジニアリングのバックグラウンドを持つ)は、2003年にGoogleSREチームを設立しました。

従来のデータセンターの専門家を採用する代わりに、Treynorは採用しました sシステムエンジニアリングに強いバックグラウンドを持つソフトウェアエンジニア。 SREが来る Googleのサービスのコードを書く同じエンジニアのプールから。プログラミングに加えて、SREは 「UNIXシステムの内部とネットワーク(レイヤー1からレイヤー3)」。

Ben Treynor on Site Reliability Engineering

では、SREは誰ですか?サイト 信頼性エンジニアは、「システムを改善するためのシステムの設計と運用を改善する方法を見つけることに焦点を当てています。よりスケーラブルで、信頼性が高く、効率的。」 SREは、Googleのアプリケーションが利用可能で信頼性が高く、ユーザーに適切なエクスペリエンスを提供することを保証します。

グーグルの サイト信頼性エンジニアリング本のオファー エンタープライズITチームにとって貴重な洞察。 私たちのインフォグラフィックは、Googleのように、信頼性が高く、スケーラブルで、俊敏なITインフラストラクチャを構築する方法を示しています。

Site Reliability Engineering Infographic

 

01.採用へのユニークなアプローチ

Site Reliability Engineering - Unique Hiring Approach

Googleは、SREを採用する際に、ソフトウェアエンジニアリングとシステムエンジニアリングの専門知識の独自の組み合わせを探しています。 SREは「世界で最も激しいピットクルー" にとって 複雑なITインフラストラクチャの問題を解決します。

SREは、時間の少なくとも50%を開発に費やします。 ops作業を行う時間の50%以上。エンジニアリングに重点を置くことで、SREは大規模で複雑なサービスを管理するためのシステムを構築できます。

02。 エラー予算を受け入れる

Site Reliability Engineering - Embrace Error Budgets

製品チームは、ユーザーに最新の機能を提供することに重点を置いています。 IT運用チームが提供したい 信頼できるサービス。この競合を解決するために、Googleはエラーバジェット革新と信頼性のバランスをとること。

プロダクトマネージャーは、 サービスレベル目標(SLO)、これは特定のサービスの稼働時間です。実際の稼働時間がSLOを超える場合、製品マネージャーには新機能を起動するためのエラーバジェットがあります。実際の稼働時間がSLO未満の場合、システムの信頼性が向上するまで機能は導入されません。

03。 労力を排除する

Site Reliability Engineering - Eliminate Toil追放する唯一の方法 惑星規模のシステムを実行する際の労力は、サイト信頼性エンジニアリングのエンジニアリング部分に焦点を当てることです。 SREは、同じレベルの人員で信頼性の高いサービスを構築および運用するためのコードを記述します。エンジニアリング作業により、Googleは反復的なタスクを回避できます。より多くの発明とより少ない労力。」

04。 すべてを自動化

Site Reliability Engineering - Automate Everything

グーグルは「可能な場合はマシンを使用してマシンを管理する” Googleが運営する規模を考えると、インフラストラクチャの運用を手で行うことは不可能です。

自動化により、SREは一貫性を提供し、エラー、脱落、および信頼性の問題を回避できます。オートメーションドライブ自律行動 より迅速な修理、より迅速なアクション、および時間の節約のために。

05。 非難のない死後

Site Reliability Engineering - Blameless Postmortems非難のない死後 将来のインシデントを防ぐために、停止の根本原因を文書化するのに役立ちます。 SREは、今月の死後、死後の読書クラブ、不幸の輪などの活動を組織します。 チームは、建設的な環境で問題を解決します。指差し

06。 信頼性の高い製品の発売

Site Reliability Engineering - Reliable Product Launches停止することなく、何百万ものユーザーに製品をどのようにリリースしますか? コーディネーションエンジニアリングを開始SREの(LCE)チームは、Googleが信頼性と俊敏性の高い製品を提供するのを支援します。 LCEチームは、製品がスムーズに発売されるように「信頼性基準とベストプラクティス」を満たすのを支援します。

結論

サイト信頼性エンジニアリングは、Google規模で運営されている企業だけのものではありません。 すべてのIT実践者は、この本を読んで、Googleがどのように注目すべき文化を浸透させたかを学ぶ必要があります。 そのサイト運用チーム。

 

Do you want to know more about OpsRamp?


Recommended posts