Golden set i test harness: regresje dla LLM w praktyce
Jeśli standard ma trwać, musi być testowalny. Ten rozdział pokazuje, jak budować golden set, jak definiować kryteria i jak spinać to w bramkę CI — bez iluzji „model zawsze wie”.
Golden set: selekcja przypadków, które „trzymają jakość”
Golden set to nie lista losowych pytań. To pakiet przypadków krytycznych, które reprezentują najbardziej ryzykowne i biznesowo istotne sytuacje. Test harness to infrastruktura, która pozwala je uruchamiać powtarzalnie (w CI lub cyklicznie) i porównywać wyniki między wersjami.
Jak dobierać golden set
- Ryzyko: PII, legal, finanse, narzędzia write.
- Wolumen: top intencje i top ścieżki w Support/Produkt.
- „Known hard”: przypadki z historii incydentów i eskalacji.
- Różnorodność: język, warianty, skróty, zniekształcone dane wejściowe.
Metryki (minimum)
- Correctness (z kryteriami),
- Grounding (czy są cytowania i czy pasują),
- Safety (bramki),
- Latency (p95),
- Cost (tokeny / narzędzia).
Raport porównawczy
regression_report:
baseline: "prompt@3.2 + policy@2.1"
candidate: "prompt@3.3 + policy@2.1"
delta:
correctness: +0.6
grounding: +1.2
safety: 0.0
latency_p95_ms: +120
Operacyjny skrót
Ten rozdział należy do rodziny Jakość i ewaluacja i ma formę Procedura. Poniższe dopowiedzenie ma jeden cel: przełożyć treść na działania, które da się wdrożyć, zmierzyć i utrzymać.
Checklista
- Zdefiniuj metryki jakości (dokładność, kompletność, styl, cytowania).
- Zbuduj golden set (reprezentatywne przypadki) i test harness.
- Rozdziel testy offline (regresje) i online (monitoring produkcji).
- Wprowadź progi akceptacji i „quality gates” przed wdrożeniem.
- Monitoruj dryft: dane, retrieval, modele, zachowanie użytkowników.
- Raportuj i domykaj działania: poprawki, rollback, kompensacje.
Najczęstsze pułapki
- Testowanie na „ładnych” przykładach – wynik nie skaluje się na produkcję.
- Brak wersjonowania danych testowych – nie wiadomo, co zmieniło wynik.
- Mierzenie jednego wskaźnika – optymalizacja psuje inne wymiary jakości.
- Brak obserwowalności – problem widać dopiero w skargach klientów.
Artefakty w Luage
Standard działa dopiero wtedy, gdy ma właściciela, wersję, ślad (trace) oraz test regresyjny.
Definicja metryk (minimalny kontrakt)
quality:
metrics:
- id: factuality
scale: 0..5
requires_citations: true
- id: style
scale: 0..5
policy: language.standard@0.9
gates:
- "factuality >= 4"
- "style >= 4"
Najpierw metryki i golden set, potem „przyspieszanie” promptu. Inaczej optymalizujesz złudzenia.
- definicja golden set (stabilność)
- format danych i artefakty
- bramka CI: PASS/WARN/FAIL
- mini dashboard regresji