Skip to content

障害関係の用語

以下の図は障害が発生してから解決するまでのライフサイクルを表現する。

gantt
title 障害のライフサイクル
dateFormat YYYY-MM-DD
axisFormat %H:%M
todayMarker off
障害発生 : milestone, 2023-12-11 09:00, 0m
MTTRec : 2023-12-11 09:00, 10m
MTTRes : 2023-12-11 09:00, 60m
MTTD : 2023-12-11 09:00, 3m
MTTK : 2023-12-11 09:03, 30m
MTTF : 2023-12-11 09:33, 17m
MTTV : 2023-12-11 09:50, 10m
障害解決 : milestone, 2023-12-11 10:00, 0m

ここでは先に復旧している(MTTRec が終わっている)が、デプロイするまで解決できない障害の場合は MTTRecMTTRes は同一になる。

Mean Time to Recovery を略したもの。障害発生開始から通常運用に戻るまでの時間。

回復はするけれど、この時点で障害の原因特定や修正は行われているとは限らない。

Mean Time to Resolution を略したもの。障害の修正がデプロイされるまでの時間。

MTTRes はさらに、以下のように分解できる。

Mean Time to Detect を略したもの。障害が発生してから検出されるまでの時間。

Mean Time to Identify を略したもの。定義は MTTD と同じ。

Mean Time to Know を略したもの。リグレッション(後退とか悪化の意味)が検出されてから根本原因が見つかるまでの時間。

Mean Time to Fix を略したもの。原因を特定してから修正がデプロイされるまでの時間。

Mean Time to Verify を略したもの。修正をデプロイしてから効果が確認できるまでの時間。