Procedura

Golden set i test harness: regresje dla LLM w praktyce

Jeśli standard ma trwać, musi być testowalny. Ten rozdział pokazuje, jak budować golden set, jak definiować kryteria i jak spinać to w bramkę CI — bez iluzji „model zawsze wie”.


Golden set: selekcja przypadków, które „trzymają jakość”

Golden set to nie lista losowych pytań. To pakiet przypadków krytycznych, które reprezentują najbardziej ryzykowne i biznesowo istotne sytuacje. Test harness to infrastruktura, która pozwala je uruchamiać powtarzalnie (w CI lub cyklicznie) i porównywać wyniki między wersjami.

Jak dobierać golden set

  • Ryzyko: PII, legal, finanse, narzędzia write.
  • Wolumen: top intencje i top ścieżki w Support/Produkt.
  • „Known hard”: przypadki z historii incydentów i eskalacji.
  • Różnorodność: język, warianty, skróty, zniekształcone dane wejściowe.

Metryki (minimum)

  • Correctness (z kryteriami),
  • Grounding (czy są cytowania i czy pasują),
  • Safety (bramki),
  • Latency (p95),
  • Cost (tokeny / narzędzia).
Praktyka: golden set powinien mieć właściciela i cykl aktualizacji. Jeżeli produkt się zmienia, golden set też musi się zmieniać – inaczej testy będą fałszywie uspokajać.

Raport porównawczy

regression_report:
  baseline: "prompt@3.2 + policy@2.1"
  candidate: "prompt@3.3 + policy@2.1"
  delta:
    correctness: +0.6
    grounding: +1.2
    safety: 0.0
    latency_p95_ms: +120
Rozszerzenie praktyczne

Operacyjny skrót

Ten rozdział należy do rodziny Jakość i ewaluacja i ma formę Procedura. Poniższe dopowiedzenie ma jeden cel: przełożyć treść na działania, które da się wdrożyć, zmierzyć i utrzymać.

Checklista

  • Zdefiniuj metryki jakości (dokładność, kompletność, styl, cytowania).
  • Zbuduj golden set (reprezentatywne przypadki) i test harness.
  • Rozdziel testy offline (regresje) i online (monitoring produkcji).
  • Wprowadź progi akceptacji i „quality gates” przed wdrożeniem.
  • Monitoruj dryft: dane, retrieval, modele, zachowanie użytkowników.
  • Raportuj i domykaj działania: poprawki, rollback, kompensacje.

Najczęstsze pułapki

  • Testowanie na „ładnych” przykładach – wynik nie skaluje się na produkcję.
  • Brak wersjonowania danych testowych – nie wiadomo, co zmieniło wynik.
  • Mierzenie jednego wskaźnika – optymalizacja psuje inne wymiary jakości.
  • Brak obserwowalności – problem widać dopiero w skargach klientów.

Artefakty w Luage

golden_set eval_harness quality_gate monitoring regression_report

Standard działa dopiero wtedy, gdy ma właściciela, wersję, ślad (trace) oraz test regresyjny.

Szablon do skopiowania

Definicja metryk (minimalny kontrakt)

quality:
  metrics:
    - id: factuality
      scale: 0..5
      requires_citations: true
    - id: style
      scale: 0..5
      policy: language.standard@0.9
  gates:
    - "factuality >= 4"
    - "style >= 4"

Najpierw metryki i golden set, potem „przyspieszanie” promptu. Inaczej optymalizujesz złudzenia.

W skrócie
  • definicja golden set (stabilność)
  • format danych i artefakty
  • bramka CI: PASS/WARN/FAIL
  • mini dashboard regresji

Definicja: co to jest „golden set”

Golden set to zestaw przypadków referencyjnych, na których system ma zachowywać się stabilnie. To nie jest „benchmark marketingowy”, tylko narzędzie do wykrywania regresji: w promptach, kontekście, narzędziach i danych.

Zasada praktyczna
Jeśli nie potrafimy utrzymać stabilności na własnym golden secie, to żadna deklaracja „quality” nie jest wiarygodna.

Jak zaprojektować zestaw

  • Pokrycie: najczęstsze intencje, przypadki brzegowe, scenariusze krytyczne (compliance, finanse, edukacja).
  • Źródła prawdy: dokumenty wersjonowane, polityki, dane z kontrolą zmian.
  • Oczekiwany wynik: nie zawsze „jedna odpowiedź”, częściej kryteria (np. „musi cytować źródło”).

Mini dashboard regresji

Poniższa wizualizacja pokazuje, jak można myśleć o bramce w CI: wynik to suma kilku zestawów (fakty, format, bezpieczeństwo, narzędzia). W realnym wdrożeniu wartości są liczone z testów, nie symulowane — tu pokazujemy mechanikę.

Rys. 1. Agregacja zestawów testowych w jedną bramkę regresji.
Bramka regresji (CI)
Zaznacz zestawy testowe — wynik jest ważony i daje status bramki.
Kontrakt cytowań, provenance, „nie wiem” zamiast zmyślania.
JSON Schema, kompletność pól, walidacja i naprawa.
Prompt injection, wycieki, nadużycia narzędzi.
Retry, timeouts, idempotency, degradacja łagodna.
Wynik łączny
Score
Co oznacza wynik

Artefakty i format danych

Minimalny zestaw plików (przykład):

golden/
  suites/
    factuality.yml
    safety.yml
  cases/
    cs_001.md
    cs_002.md
  expected/
    cs_001.json
  harness/
    runner.ts
    scoring.ts
  reports/
    last_run.json

Wdrożenie w organizacji

  • Golden set ma właściciela (RACI) i cykl przeglądu.
  • Zmiana promptu/kontekstu narzędzi wymaga uruchomienia regresji.
  • Każdy „wyjątek” od bramki trafia do rejestru wyjątków.