障害関係の用語
以下の図は障害が発生してから解決するまでのライフサイクルを表現する。
gantt title 障害のライフサイクル dateFormat YYYY-MM-DD axisFormat %H:%M todayMarker off
障害発生 : milestone, 2023-12-11 09:00, 0m MTTRec : 2023-12-11 09:00, 10m MTTRes : 2023-12-11 09:00, 60m MTTD : 2023-12-11 09:00, 3m MTTK : 2023-12-11 09:03, 30m MTTF : 2023-12-11 09:33, 17m MTTV : 2023-12-11 09:50, 10m 障害解決 : milestone, 2023-12-11 10:00, 0mここでは先に復旧している(MTTRec が終わっている)が、デプロイするまで解決できない障害の場合は MTTRec と MTTRes は同一になる。
MTTRec
Section titled “MTTRec”Mean Time to Recovery を略したもの。障害発生開始から通常運用に戻るまでの時間。
回復はするけれど、この時点で障害の原因特定や修正は行われているとは限らない。
MTTRes
Section titled “MTTRes”Mean Time to Resolution を略したもの。障害の修正がデプロイされるまでの時間。
MTTRes はさらに、以下のように分解できる。
Mean Time to Detect を略したもの。障害が発生してから検出されるまでの時間。
Mean Time to Identify を略したもの。定義は MTTD と同じ。
Mean Time to Know を略したもの。リグレッション(後退とか悪化の意味)が検出されてから根本原因が見つかるまでの時間。
Mean Time to Fix を略したもの。原因を特定してから修正がデプロイされるまでの時間。
Mean Time to Verify を略したもの。修正をデプロイしてから効果が確認できるまでの時間。