Checklisty jakości (review)
Dobrze zrobiona checklista jest krótka, egzekwowalna i ma jedno zadanie: zatrzymać słaby materiał zanim trafi do użytkownika lub na produkcję. Poniżej jest zestaw, który nadaje się zarówno do rozdziałów Compendium, jak i do promptów, RAG oraz integracji narzędzi.
Operacyjny skrót
Ten rozdział należy do rodziny Jakość i ewaluacja i ma formę Checklist. Poniższe dopowiedzenie ma jeden cel: przełożyć treść na działania, które da się wdrożyć, zmierzyć i utrzymać.
Checklista
- Zdefiniuj metryki jakości (dokładność, kompletność, styl, cytowania).
- Zbuduj golden set (reprezentatywne przypadki) i test harness.
- Rozdziel testy offline (regresje) i online (monitoring produkcji).
- Wprowadź progi akceptacji i „quality gates” przed wdrożeniem.
- Monitoruj dryft: dane, retrieval, modele, zachowanie użytkowników.
- Raportuj i domykaj działania: poprawki, rollback, kompensacje.
Najczęstsze pułapki
- Testowanie na „ładnych” przykładach – wynik nie skaluje się na produkcję.
- Brak wersjonowania danych testowych – nie wiadomo, co zmieniło wynik.
- Mierzenie jednego wskaźnika – optymalizacja psuje inne wymiary jakości.
- Brak obserwowalności – problem widać dopiero w skargach klientów.
Artefakty w Luage
Standard działa dopiero wtedy, gdy ma właściciela, wersję, ślad (trace) oraz test regresyjny.
Definicja metryk (minimalny kontrakt)
quality:
metrics:
- id: factuality
scale: 0..5
requires_citations: true
- id: style
scale: 0..5
policy: language.standard@0.9
gates:
- "factuality >= 4"
- "style >= 4"
Najpierw metryki i golden set, potem „przyspieszanie” promptu. Inaczej optymalizujesz złudzenia.
- Blokuj, gdy brak źródeł / brak kontraktu / niejasna odpowiedzialność.
- Ostrzegaj, gdy forma jest niespójna, a wynik „płynie”.
- Mierz: checklista bez metryk zamienia się w „opinię”.