Monitoring jakości i drift: metryki, alerty i runbook
Jak mierzyć jakość i ryzyko, wykrywać drift i prowadzić reakcję na degradację bez paniki — z telemetrią, progami i procesem zmian.
Operacyjny skrót
Ten rozdział należy do rodziny Jakość i ewaluacja i ma formę Procedura. Poniższe dopowiedzenie ma jeden cel: przełożyć treść na działania, które da się wdrożyć, zmierzyć i utrzymać.
Checklista
- Zdefiniuj metryki jakości (dokładność, kompletność, styl, cytowania).
- Zbuduj golden set (reprezentatywne przypadki) i test harness.
- Rozdziel testy offline (regresje) i online (monitoring produkcji).
- Wprowadź progi akceptacji i „quality gates” przed wdrożeniem.
- Monitoruj dryft: dane, retrieval, modele, zachowanie użytkowników.
- Raportuj i domykaj działania: poprawki, rollback, kompensacje.
Najczęstsze pułapki
- Testowanie na „ładnych” przykładach – wynik nie skaluje się na produkcję.
- Brak wersjonowania danych testowych – nie wiadomo, co zmieniło wynik.
- Mierzenie jednego wskaźnika – optymalizacja psuje inne wymiary jakości.
- Brak obserwowalności – problem widać dopiero w skargach klientów.
Artefakty w Luage
Standard działa dopiero wtedy, gdy ma właściciela, wersję, ślad (trace) oraz test regresyjny.
Definicja metryk (minimalny kontrakt)
quality:
metrics:
- id: factuality
scale: 0..5
requires_citations: true
- id: style
scale: 0..5
policy: language.standard@0.9
gates:
- "factuality >= 4"
- "style >= 4"
Najpierw metryki i golden set, potem „przyspieszanie” promptu. Inaczej optymalizujesz złudzenia.
- warstwy metryk (SLO/jakość/ryzyko)
- sygnały driftu i progi
- runbook reakcji
- ciągłe doskonalenie przez regresje
- checklist wdrożeniowy