Procedura • Wdrożenie i governance

Obserwowalność i audyt

Jak mierzyć i audytować system LLM: trace jako standard, metryki jakości i kosztu, redakcja logów oraz odtwarzalność decyzji.

Powiązane: Dane i prywatność Powiązane: Koszt i SLO

Obserwowalność: co musi być widoczne

W systemach z LLM „debugowanie z pamięci” nie działa. Potrzebujesz artefaktów: trace, policy_version, doc@ver, tool_contract_version oraz pełnego łańcucha decyzji (bramki, fallbacki, retry).

Dziennik zdarzeń (proponowany zakres)

Input: intencja, parametry, kanał, język, ryzyko (klasyfikacja).
Context: źródła, wersje, budżet tokenów, odrzucenia (ACL, deduplikacja).
Tools: wywołania, statusy, latency, retry, idempotency.
Gates: decyzje (allow/deny/review) i uzasadnienia.
Output: format, cytowania, policy_version, ewentualne ostrzeżenia.

Audyt: pytania, które musisz umieć odpowiedzieć

Dlaczego ta odpowiedź wygląda tak, a nie inaczej?
Z jakich źródeł skorzystano (doc@ver + span)?
Jakie polityki były aktywne (policy_version)?
Czy użyto narzędzi – jakich i z jakim skutkiem?
Czy był wyjątek/eskalacja – kto zatwierdził?

Klasyczny standard: log musi być użyteczny i bezpieczny. Dane wrażliwe redaguj. Wersje i identyfikatory zostaw – one są paliwem dla audytu.

Retencja i prywatność

retencja logów dostosowana do ryzyka i wymogów prawnych,
oddzielne przechowywanie surowych payloadów (jeśli w ogóle),
kontrola dostępu do logów (RBAC/ABAC),
rejestr zapytań audytowych (kto, po co, kiedy).

Rozszerzenie praktyczne

Operacyjny skrót

Ten rozdział należy do rodziny Jakość i ewaluacja i ma formę Procedura. Poniższe dopowiedzenie ma jeden cel: przełożyć treść na działania, które da się wdrożyć, zmierzyć i utrzymać.

Checklista

Zdefiniuj metryki jakości (dokładność, kompletność, styl, cytowania).
Zbuduj golden set (reprezentatywne przypadki) i test harness.
Rozdziel testy offline (regresje) i online (monitoring produkcji).
Wprowadź progi akceptacji i „quality gates” przed wdrożeniem.
Monitoruj dryft: dane, retrieval, modele, zachowanie użytkowników.
Raportuj i domykaj działania: poprawki, rollback, kompensacje.

Najczęstsze pułapki

Testowanie na „ładnych” przykładach – wynik nie skaluje się na produkcję.
Brak wersjonowania danych testowych – nie wiadomo, co zmieniło wynik.
Mierzenie jednego wskaźnika – optymalizacja psuje inne wymiary jakości.
Brak obserwowalności – problem widać dopiero w skargach klientów.

Artefakty w Luage

golden_set eval_harness quality_gate monitoring regression_report

Standard działa dopiero wtedy, gdy ma właściciela, wersję, ślad (trace) oraz test regresyjny.

Szablon do skopiowania

Definicja metryk (minimalny kontrakt)

quality:
  metrics:
    - id: factuality
      scale: 0..5
      requires_citations: true
    - id: style
      scale: 0..5
      policy: language.standard@0.9
  gates:
    - "factuality >= 4"
    - "style >= 4"

Najpierw metryki i golden set, potem „przyspieszanie” promptu. Inaczej optymalizujesz złudzenia.

W skrócie

Trace to nie log tekstu — to model zdarzeń (spany) z wersjami i decyzjami.
Audyt wymaga odtwarzalności: prompt@ver, policy@ver, index@ver.
Prywatność: redakcja przed logami; wrażliwe treści tylko w trybach debug, czasowo.
SLO: jakość (coverage, citations) i koszt (tokeny, retrieval) muszą być mierzone.

Obserwowalność i audyt

Obserwowalność: co musi być widoczne

Dziennik zdarzeń (proponowany zakres)

Audyt: pytania, które musisz umieć odpowiedzieć

Retencja i prywatność

Operacyjny skrót

Checklista

Najczęstsze pułapki

Artefakty w Luage

Definicja metryk (minimalny kontrakt)

1. Co mierzymy

2. Trace jako standard

3. Audyt i odtwarzalność

4. Prywatność w telemetry

5. Dashboardy i alerty

6. Checklist