Golden set i test harness: regresje dla LLM w praktyce
Jeśli standard ma trwać, musi być testowalny. Ten rozdział pokazuje, jak budować golden set, jak definiować kryteria i jak spinać to w bramkę CI — bez iluzji „model zawsze wie”.
Golden set: selekcja przypadków, które „trzymają jakość”
Golden set to nie lista losowych pytań. To pakiet przypadków krytycznych, które reprezentują najbardziej ryzykowne i biznesowo istotne sytuacje. Test harness to infrastruktura, która pozwala je uruchamiać powtarzalnie (w CI lub cyklicznie) i porównywać wyniki między wersjami.
Jak dobierać golden set
- Ryzyko: PII, legal, finanse, narzędzia write.
- Wolumen: top intencje i top ścieżki w Support/Produkt.
- „Known hard”: przypadki z historii incydentów i eskalacji.
- Różnorodność: język, warianty, skróty, zniekształcone dane wejściowe.
Metryki (minimum)
- Correctness (z kryteriami),
- Grounding (czy są cytowania i czy pasują),
- Safety (bramki),
- Latency (p95),
- Cost (tokeny / narzędzia).
Raport porównawczy
regression_report:
baseline: "prompt@3.2 + policy@2.1"
candidate: "prompt@3.3 + policy@2.1"
delta:
correctness: +0.6
grounding: +1.2
safety: 0.0
latency_p95_ms: +120
- definicja golden set (stabilność)
- format danych i artefakty
- bramka CI: PASS/WARN/FAIL
- mini dashboard regresji