小さな開発組織でも、説明できる運用と壊れにくい配信体制をつくるための実務メモです。SREを大規模組織だけの話にせず、現実的に始める観点で整理しています。
Articles
まずは、障害対応、デプロイ、オンコールの3つから揃えました。いずれも、スタートアップや小規模なプロダクトチームがそのまま運用に持ち込みやすい内容です。
アラートが鳴りすぎる状態を放置すると、障害そのものより先に運用が壊れます。小さなチームが最初に決めるべきSLOの粒度と、アラートの切り方を整理します。
配信速度だけを追うと、変更の説明責任と復旧速度が置き去りになります。安心してリリースするための、変更管理とロールバック設計の基本をまとめました。
少人数組織では、オンコール当番を置くだけでは回りません。引き継ぎ、一次切り分け、記録の残し方まで含めて、疲弊しないオンコール体制を考えます。