Procedura

Monitoring jakości i drift: metryki, alerty i runbook

Jak mierzyć jakość i ryzyko, wykrywać drift i prowadzić reakcję na degradację bez paniki — z telemetrią, progami i procesem zmian.

W tym rozdziale
  • warstwy metryk (SLO/jakość/ryzyko)
  • sygnały driftu i progi
  • runbook reakcji
  • ciągłe doskonalenie przez regresje
  • checklist wdrożeniowy

Cel: wykrywać degradację zanim zrobi się incydent

Monitoring „AI” nie zaczyna się od wykresu tokenów. Zaczyna się od odpowiedzi na pytanie: co oznacza, że system jest dobry w danej dziedzinie — i jak to mierzyć. Następnie budujemy telemetrię i alerty tak, żeby wykrywały degradację jakości, a nie tylko błędy techniczne.

Praktyka: metryki dzielimy na trzy warstwy: (1) techniczne SLO, (2) metryki jakości odpowiedzi, (3) metryki ryzyka (policy/safety). Każda warstwa ma własne progi i procedury reakcji.

Warstwa 1: SLO techniczne

  • latency p50/p95/p99 (osobno: retrieval, model, narzędzia)
  • timeouts i retry rate dla narzędzi
  • koszt: tokeny, liczba wywołań narzędzi, cache hit rate

Warstwa 2: Jakość

  • Coverage cytowań (ile twierdzeń faktualnych ma źródło)
  • Retrieval hit rate (czy właściwe źródło pojawia się w top‑k)
  • Validator pass rate (format/JSON/schema, jeśli używane)
  • satysfakcja użytkownika (CSAT) i wskaźniki „follow‑up”

Warstwa 3: Ryzyko i zgodność

  • naruszenia polityk (policy violations)
  • odsetek odmów / „unknown” (jeśli rośnie, to zwykle sygnał problemu z wiedzą)
  • incydenty halucynacji w kategoriach krytycznych
Rysunek 1. Wykrywanie driftu jako proces
Telemetria Anomalia Triage Remediacja + regresje ciągłe doskonalenie — zmiany zawsze przez bramki i testy

Runbook: reakcja na degradację

  1. Containment: ogranicz zakres (np. wyłącz write‑tools, obniż kreatywność, podnieś progi dowodowości).
  2. Diagnoza: czy problem jest w wiedzy (retrieval), w prompt/kontrakcie, w narzędziu, czy w politykach?
  3. Naprawa: popraw indeks/chunking, doprecyzuj kontrakt, napraw narzędzie, zmień politykę.
  4. Regresje: dodaj przypadki do zestawu testowego, żeby problem nie wrócił.
  5. Komunikacja: jeśli dotyczy studentów/edukacji — informuj o ograniczeniach i zakresie materiału.

Checklist (skrót)

  • Zdefiniowane SLO + metryki jakości + metryki ryzyka.
  • Trace dla każdej odpowiedzi (przynajmniej: retrieval, bramki, walidacje).
  • Alerty z progami i właścicielami (RACI).
  • Proces zmian: roll‑back i regresje.
Powiązane
Na tej stronie
Spis
    Status merytoryczny
    Ten rozdział jest częścią Compendium. Metryka (wersja, owner, terminy przeglądu) jest wypełniana automatycznie na podstawie manifestu.