Procedura

Syntetyczne dane ewaluacyjne

Jeżeli chcesz stabilnej jakości, potrzebujesz stabilnych testów. Syntetyczne dane pomagają budować pokrycie i regresje, ale tylko pod warunkiem, że są weryfikowalne i zarządzane jak produkt.

Rozszerzenie praktyczne

Operacyjny skrót

Ten rozdział należy do rodziny Jakość i ewaluacja i ma formę Procedura. Poniższe dopowiedzenie ma jeden cel: przełożyć treść na działania, które da się wdrożyć, zmierzyć i utrzymać.

Checklista

Zdefiniuj metryki jakości (dokładność, kompletność, styl, cytowania).
Zbuduj golden set (reprezentatywne przypadki) i test harness.
Rozdziel testy offline (regresje) i online (monitoring produkcji).
Wprowadź progi akceptacji i „quality gates” przed wdrożeniem.
Monitoruj dryft: dane, retrieval, modele, zachowanie użytkowników.
Raportuj i domykaj działania: poprawki, rollback, kompensacje.

Najczęstsze pułapki

Testowanie na „ładnych” przykładach – wynik nie skaluje się na produkcję.
Brak wersjonowania danych testowych – nie wiadomo, co zmieniło wynik.
Mierzenie jednego wskaźnika – optymalizacja psuje inne wymiary jakości.
Brak obserwowalności – problem widać dopiero w skargach klientów.

Artefakty w Luage

golden_set eval_harness quality_gate monitoring regression_report

Standard działa dopiero wtedy, gdy ma właściciela, wersję, ślad (trace) oraz test regresyjny.

Szablon do skopiowania

Definicja metryk (minimalny kontrakt)

quality:
  metrics:
    - id: factuality
      scale: 0..5
      requires_citations: true
    - id: style
      scale: 0..5
      policy: language.standard@0.9
  gates:
    - "factuality >= 4"
    - "style >= 4"

Najpierw metryki i golden set, potem „przyspieszanie” promptu. Inaczej optymalizujesz złudzenia.

W skrócie

syntetyczne dane są przydatne, ale muszą przejść bramki (schema, cytowania, PII)
dataset jest artefaktem: wersja, owner, log zmian, review
rubryka jest równie ważna jak pytania — inaczej oceniasz styl, nie poprawność
CI i regresje mają sens tylko, gdy testy są stabilne i weryfikowalne

Jeśli to ma wejść do procesu, proszę traktować ten rozdział jako standard operacyjny.

1. Po co syntetyczne dane i gdzie są pułapki

Syntetyczne dane ewaluacyjne (pytania, zadania, odpowiedzi wzorcowe, rubryki) są przydatne, gdy:

chcesz szybko pokryć program (coverage) i poziomy trudności,

budujesz regresje jakości (CI) i potrzebujesz powtarzalności,

testujesz nowe polityki (no‑answer, cytowania, bramki narzędziowe).

Pułapki są klasyczne: halucynacje, stronniczość, przemycenie danych wrażliwych, oraz „testy”, które w praktyce testują styl wypowiedzi, a nie poprawność.

3. Bramki weryfikacji: co musi przejść

Bramka	Wymóg	Przykład odrzucenia
Schema	format zgodny z kontraktem (JSON Schema, pola obowiązkowe)	brak kryteriów oceny lub brak źródeł
Cytowania / dowody	tam, gdzie są fakty: źródło + fragment + wersja	odpowiedź brzmi dobrze, ale nie ma dowodu
PII / DLP	brak danych osobowych i wrażliwych	realne nazwisko, numer, identyfikator
Duplikaty i przecieki	deduplikacja + kontrola podobieństwa	to samo zadanie „w przebraniu”

Syntetyczne dane ewaluacyjne

Operacyjny skrót

Checklista

Najczęstsze pułapki

Artefakty w Luage

Definicja metryk (minimalny kontrakt)

1. Po co syntetyczne dane i gdzie są pułapki

2. Pipeline: generator → bramki → golden set

3. Bramki weryfikacji: co musi przejść

4. Rubryki: jak oceniać, żeby to miało sens

5. Wersjonowanie datasetów i CI

6. Powiązane rozdziały