Procedura

Golden set i test harness: regresje dla LLM w praktyce

Jeśli standard ma trwać, musi być testowalny. Ten rozdział pokazuje, jak budować golden set, jak definiować kryteria i jak spinać to w bramkę CI — bez iluzji „model zawsze wie”.

Golden set: selekcja przypadków, które „trzymają jakość”

Golden set to nie lista losowych pytań. To pakiet przypadków krytycznych, które reprezentują najbardziej ryzykowne i biznesowo istotne sytuacje. Test harness to infrastruktura, która pozwala je uruchamiać powtarzalnie (w CI lub cyklicznie) i porównywać wyniki między wersjami.

Jak dobierać golden set

Ryzyko: PII, legal, finanse, narzędzia write.
Wolumen: top intencje i top ścieżki w Support/Produkt.
„Known hard”: przypadki z historii incydentów i eskalacji.
Różnorodność: język, warianty, skróty, zniekształcone dane wejściowe.

Metryki (minimum)

Correctness (z kryteriami),
Grounding (czy są cytowania i czy pasują),
Safety (bramki),
Latency (p95),
Cost (tokeny / narzędzia).

Praktyka: golden set powinien mieć właściciela i cykl aktualizacji. Jeżeli produkt się zmienia, golden set też musi się zmieniać – inaczej testy będą fałszywie uspokajać.

Raport porównawczy

regression_report:
  baseline: "prompt@3.2 + policy@2.1"
  candidate: "prompt@3.3 + policy@2.1"
  delta:
    correctness: +0.6
    grounding: +1.2
    safety: 0.0
    latency_p95_ms: +120

Rozszerzenie praktyczne

Operacyjny skrót

Ten rozdział należy do rodziny Jakość i ewaluacja i ma formę Procedura. Poniższe dopowiedzenie ma jeden cel: przełożyć treść na działania, które da się wdrożyć, zmierzyć i utrzymać.

Checklista

Zdefiniuj metryki jakości (dokładność, kompletność, styl, cytowania).
Zbuduj golden set (reprezentatywne przypadki) i test harness.
Rozdziel testy offline (regresje) i online (monitoring produkcji).
Wprowadź progi akceptacji i „quality gates” przed wdrożeniem.
Monitoruj dryft: dane, retrieval, modele, zachowanie użytkowników.
Raportuj i domykaj działania: poprawki, rollback, kompensacje.

Najczęstsze pułapki

Testowanie na „ładnych” przykładach – wynik nie skaluje się na produkcję.
Brak wersjonowania danych testowych – nie wiadomo, co zmieniło wynik.
Mierzenie jednego wskaźnika – optymalizacja psuje inne wymiary jakości.
Brak obserwowalności – problem widać dopiero w skargach klientów.

Artefakty w Luage

golden_set eval_harness quality_gate monitoring regression_report

Standard działa dopiero wtedy, gdy ma właściciela, wersję, ślad (trace) oraz test regresyjny.

Szablon do skopiowania

Definicja metryk (minimalny kontrakt)

quality:
  metrics:
    - id: factuality
      scale: 0..5
      requires_citations: true
    - id: style
      scale: 0..5
      policy: language.standard@0.9
  gates:
    - "factuality >= 4"
    - "style >= 4"

Najpierw metryki i golden set, potem „przyspieszanie” promptu. Inaczej optymalizujesz złudzenia.

W skrócie

definicja golden set (stabilność)
format danych i artefakty
bramka CI: PASS/WARN/FAIL
mini dashboard regresji

Golden set i test harness: regresje dla LLM w praktyce

Golden set: selekcja przypadków, które „trzymają jakość”

Jak dobierać golden set

Metryki (minimum)

Raport porównawczy

Operacyjny skrót

Checklista

Najczęstsze pułapki

Artefakty w Luage

Definicja metryk (minimalny kontrakt)

Definicja: co to jest „golden set”

Jak zaprojektować zestaw

Mini dashboard regresji

Artefakty i format danych

Wdrożenie w organizacji