Monitoring jakości i drift: metryki, alerty i runbook
Jak mierzyć jakość i ryzyko, wykrywać drift i prowadzić reakcję na degradację bez paniki — z telemetrią, progami i procesem zmian.
W tym rozdziale
warstwy metryk (SLO/jakość/ryzyko)
sygnały driftu i progi
runbook reakcji
ciągłe doskonalenie przez regresje
checklist wdrożeniowy
Cel: wykrywać degradację zanim zrobi się incydent
Monitoring „AI” nie zaczyna się od wykresu tokenów. Zaczyna się od odpowiedzi na pytanie: co oznacza, że system jest dobry
w danej dziedzinie — i jak to mierzyć. Następnie budujemy telemetrię i alerty tak, żeby wykrywały degradację jakości, a nie tylko błędy techniczne.
Praktyka: metryki dzielimy na trzy warstwy: (1) techniczne SLO, (2) metryki jakości odpowiedzi, (3) metryki ryzyka (policy/safety).
Każda warstwa ma własne progi i procedury reakcji.