Procedura

Golden set i test harness: regresje dla LLM w praktyce

Jeśli standard ma trwać, musi być testowalny. Ten rozdział pokazuje, jak budować golden set, jak definiować kryteria i jak spinać to w bramkę CI — bez iluzji „model zawsze wie”.


Golden set: selekcja przypadków, które „trzymają jakość”

Golden set to nie lista losowych pytań. To pakiet przypadków krytycznych, które reprezentują najbardziej ryzykowne i biznesowo istotne sytuacje. Test harness to infrastruktura, która pozwala je uruchamiać powtarzalnie (w CI lub cyklicznie) i porównywać wyniki między wersjami.

Jak dobierać golden set

  • Ryzyko: PII, legal, finanse, narzędzia write.
  • Wolumen: top intencje i top ścieżki w Support/Produkt.
  • „Known hard”: przypadki z historii incydentów i eskalacji.
  • Różnorodność: język, warianty, skróty, zniekształcone dane wejściowe.

Metryki (minimum)

  • Correctness (z kryteriami),
  • Grounding (czy są cytowania i czy pasują),
  • Safety (bramki),
  • Latency (p95),
  • Cost (tokeny / narzędzia).
Praktyka: golden set powinien mieć właściciela i cykl aktualizacji. Jeżeli produkt się zmienia, golden set też musi się zmieniać – inaczej testy będą fałszywie uspokajać.

Raport porównawczy

regression_report:
  baseline: "prompt@3.2 + policy@2.1"
  candidate: "prompt@3.3 + policy@2.1"
  delta:
    correctness: +0.6
    grounding: +1.2
    safety: 0.0
    latency_p95_ms: +120
W skrócie
  • definicja golden set (stabilność)
  • format danych i artefakty
  • bramka CI: PASS/WARN/FAIL
  • mini dashboard regresji

Definicja: co to jest „golden set”

Golden set to zestaw przypadków referencyjnych, na których system ma zachowywać się stabilnie. To nie jest „benchmark marketingowy”, tylko narzędzie do wykrywania regresji: w promptach, kontekście, narzędziach i danych.

Zasada praktyczna
Jeśli nie potrafimy utrzymać stabilności na własnym golden secie, to żadna deklaracja „quality” nie jest wiarygodna.

Jak zaprojektować zestaw

  • Pokrycie: najczęstsze intencje, przypadki brzegowe, scenariusze krytyczne (compliance, finanse, edukacja).
  • Źródła prawdy: dokumenty wersjonowane, polityki, dane z kontrolą zmian.
  • Oczekiwany wynik: nie zawsze „jedna odpowiedź”, częściej kryteria (np. „musi cytować źródło”).

Mini dashboard regresji

Poniższa wizualizacja pokazuje, jak można myśleć o bramce w CI: wynik to suma kilku zestawów (fakty, format, bezpieczeństwo, narzędzia). W realnym wdrożeniu wartości są liczone z testów, nie symulowane — tu pokazujemy mechanikę.

Rys. 1. Agregacja zestawów testowych w jedną bramkę regresji.
Bramka regresji (CI)
Zaznacz zestawy testowe — wynik jest ważony i daje status bramki.
Kontrakt cytowań, provenance, „nie wiem” zamiast zmyślania.
JSON Schema, kompletność pól, walidacja i naprawa.
Prompt injection, wycieki, nadużycia narzędzi.
Retry, timeouts, idempotency, degradacja łagodna.
Wynik łączny
Score
Co oznacza wynik

Artefakty i format danych

Minimalny zestaw plików (przykład):

golden/
  suites/
    factuality.yml
    safety.yml
  cases/
    cs_001.md
    cs_002.md
  expected/
    cs_001.json
  harness/
    runner.ts
    scoring.ts
  reports/
    last_run.json

Wdrożenie w organizacji

  • Golden set ma właściciela (RACI) i cykl przeglądu.
  • Zmiana promptu/kontekstu narzędzi wymaga uruchomienia regresji.
  • Każdy „wyjątek” od bramki trafia do rejestru wyjątków.