Obserwowalność i audyt
Jak mierzyć i audytować system LLM: trace jako standard, metryki jakości i kosztu, redakcja logów oraz odtwarzalność decyzji.
Obserwowalność: co musi być widoczne
W systemach z LLM „debugowanie z pamięci” nie działa. Potrzebujesz artefaktów: trace, policy_version, doc@ver, tool_contract_version oraz pełnego łańcucha decyzji (bramki, fallbacki, retry).
Dziennik zdarzeń (proponowany zakres)
- Input: intencja, parametry, kanał, język, ryzyko (klasyfikacja).
- Context: źródła, wersje, budżet tokenów, odrzucenia (ACL, deduplikacja).
- Tools: wywołania, statusy, latency, retry, idempotency.
- Gates: decyzje (allow/deny/review) i uzasadnienia.
- Output: format, cytowania, policy_version, ewentualne ostrzeżenia.
Audyt: pytania, które musisz umieć odpowiedzieć
- Dlaczego ta odpowiedź wygląda tak, a nie inaczej?
- Z jakich źródeł skorzystano (doc@ver + span)?
- Jakie polityki były aktywne (policy_version)?
- Czy użyto narzędzi – jakich i z jakim skutkiem?
- Czy był wyjątek/eskalacja – kto zatwierdził?
Retencja i prywatność
- retencja logów dostosowana do ryzyka i wymogów prawnych,
- oddzielne przechowywanie surowych payloadów (jeśli w ogóle),
- kontrola dostępu do logów (RBAC/ABAC),
- rejestr zapytań audytowych (kto, po co, kiedy).
- Trace to nie log tekstu — to model zdarzeń (spany) z wersjami i decyzjami.
- Audyt wymaga odtwarzalności: prompt@ver, policy@ver, index@ver.
- Prywatność: redakcja przed logami; wrażliwe treści tylko w trybach debug, czasowo.
- SLO: jakość (coverage, citations) i koszt (tokeny, retrieval) muszą być mierzone.