サービスレベル指標

サービスレベル指標(SLI)はサービスのパフォーマンスや信頼性の計測に使用されるメトリックです。SLOの指標として使用され、可用性、レイテンシー、スループット、エラーレートなどのメトリックから計測されます。

Site24x7では、SLIはWebサイト監視などの各リソース監視データから取得されます。

SLIの決定方法

SLIは既存の監視からKPIを選択することで決定できます。いくつかのSLIとして、可用性、レイテンシー、応答時間、スループット、メモリ使用量が存在します。これらの顧客に影響がおよぶパラメーターをSLIに反映し、サービス正常性の評価に利用します。
Site24x7では、SLIの計算方式として時間ベース、時間枠ベース、数ベースの評価方法が存在します。例は次のとおりです。

DNSサーバーを監視しており、障害なくユーザーが行えるドメイン名の解決を行える状態を維持します。

  • 時間ベース:指定した期間中にサービスがどれだけ長い時間で正常であったかを追跡します。
    • :DNSサーバーが直近24時間継続して監視されており、そのうち23時間、アップ状態で正常に応答していました。この場合、DNSサーバーのアップ時間がSLIに該当します。
  • 時間枠ベース評価:期間を一定間隔で分け、各間隔で期待した標準にサービスが準拠しているかを確認します。
    • :1日の間、1時間ごとにDNSサーバーが監視されていました。24回のチェックのうち20回がサーバーの正常な挙動(速い応答やエラーなしなど)が確認されました。SLIは成功した時間枠の値となります。
  • 数ベース評価:イベント数の合計の成功したイベントの割合を計算します。
    • 例:1日の間に100回のDNSクエリがサーバーに送信されました。そのうち95回は正常に受信されましたが、一方5回のタイムアウトが発生しました。この場合のSLIは「(95/100) × 100 = 95%」の成功レートとなります。

正確な指標と評価方法hを選択することで、サービスの定量的で本質的なゴールを設定できます。柔軟な設定オプションと包括的な分析を使用して設定したSLIで、サービスの品質を管理しサービスレベルのコミットメントに準拠するようにします。

関連ガイド