Procedura

Monitoring jakości i drift: metryki, alerty i runbook

Jak mierzyć jakość i ryzyko, wykrywać drift i prowadzić reakcję na degradację bez paniki — z telemetrią, progami i procesem zmian.

Rozszerzenie praktyczne

Operacyjny skrót

Ten rozdział należy do rodziny Jakość i ewaluacja i ma formę Procedura. Poniższe dopowiedzenie ma jeden cel: przełożyć treść na działania, które da się wdrożyć, zmierzyć i utrzymać.

Checklista

Zdefiniuj metryki jakości (dokładność, kompletność, styl, cytowania).
Zbuduj golden set (reprezentatywne przypadki) i test harness.
Rozdziel testy offline (regresje) i online (monitoring produkcji).
Wprowadź progi akceptacji i „quality gates” przed wdrożeniem.
Monitoruj dryft: dane, retrieval, modele, zachowanie użytkowników.
Raportuj i domykaj działania: poprawki, rollback, kompensacje.

Najczęstsze pułapki

Testowanie na „ładnych” przykładach – wynik nie skaluje się na produkcję.
Brak wersjonowania danych testowych – nie wiadomo, co zmieniło wynik.
Mierzenie jednego wskaźnika – optymalizacja psuje inne wymiary jakości.
Brak obserwowalności – problem widać dopiero w skargach klientów.

Artefakty w Luage

golden_set eval_harness quality_gate monitoring regression_report

Standard działa dopiero wtedy, gdy ma właściciela, wersję, ślad (trace) oraz test regresyjny.

Szablon do skopiowania

Definicja metryk (minimalny kontrakt)

quality:
  metrics:
    - id: factuality
      scale: 0..5
      requires_citations: true
    - id: style
      scale: 0..5
      policy: language.standard@0.9
  gates:
    - "factuality >= 4"
    - "style >= 4"

Najpierw metryki i golden set, potem „przyspieszanie” promptu. Inaczej optymalizujesz złudzenia.

W tym rozdziale

warstwy metryk (SLO/jakość/ryzyko)
sygnały driftu i progi
runbook reakcji
ciągłe doskonalenie przez regresje
checklist wdrożeniowy

Cel: wykrywać degradację zanim zrobi się incydent

Monitoring „AI” nie zaczyna się od wykresu tokenów. Zaczyna się od odpowiedzi na pytanie: co oznacza, że system jest dobry w danej dziedzinie — i jak to mierzyć. Następnie budujemy telemetrię i alerty tak, żeby wykrywały degradację jakości, a nie tylko błędy techniczne.

Praktyka: metryki dzielimy na trzy warstwy: (1) techniczne SLO, (2) metryki jakości odpowiedzi, (3) metryki ryzyka (policy/safety). Każda warstwa ma własne progi i procedury reakcji.

Warstwa 3: Ryzyko i zgodność

naruszenia polityk (policy violations)

odsetek odmów / „unknown” (jeśli rośnie, to zwykle sygnał problemu z wiedzą)

incydenty halucynacji w kategoriach krytycznych

Rysunek 1. Wykrywanie driftu jako proces

Runbook: reakcja na degradację

Containment: ogranicz zakres (np. wyłącz write‑tools, obniż kreatywność, podnieś progi dowodowości).

Diagnoza: czy problem jest w wiedzy (retrieval), w prompt/kontrakcie, w narzędziu, czy w politykach?

Naprawa: popraw indeks/chunking, doprecyzuj kontrakt, napraw narzędzie, zmień politykę.

Regresje: dodaj przypadki do zestawu testowego, żeby problem nie wrócił.

Komunikacja: jeśli dotyczy studentów/edukacji — informuj o ograniczeniach i zakresie materiału.

Monitoring jakości i drift: metryki, alerty i runbook

Operacyjny skrót

Checklista

Najczęstsze pułapki

Artefakty w Luage

Definicja metryk (minimalny kontrakt)

Cel: wykrywać degradację zanim zrobi się incydent

Warstwa 1: SLO techniczne

Warstwa 2: Jakość

Warstwa 3: Ryzyko i zgodność

Runbook: reakcja na degradację

Checklist (skrót)