読者です 読者をやめる 読者になる 読者になる

デブサミで垣間見たGoogleのDevOpsの凄さは人的要素の徹底排除にある

thinkit.co.jp

 

つまり、成長に合せて運用に携わる人員が増えていくサービスはダメだ、ということである。さらに、「人員の数が増えると品質は低下する」とも断言している。

SREには「エラーバジェット」と言う数値が設定され、それを超えないように運用を安定化させるという。つまり99.9%の稼働率であれば、年間に8時間強のダウンタイムが「発生しても良い」という上限を設けて、その値を超えないようにテストを行い、システムを冗長化するという目標だ。これはエンタープライズにおいても参考になる発想で、あるシステムを実装する際に1年間に何時間、そのシステムが止まっても許されるのか? をビジネスから発想して、それを開発と運用にチームに落とし込むというものだ。

さらに稼働率の目標を達成するために、つまりエラーバジェットを超えないようにするために「ダウンタイムとダウンタイムの間隔を伸ばすこと」と「リカバリーに必要な時間を減らすこと」の2つの軸でシステムの運用を自動化する必要があると、このインタビューでは語られている。この辺りの評価軸も、エンタープライズが自社IT基盤を構築する上で参考になる考え方だろう。