Procedura

Syntetyczne dane ewaluacyjne

Jeżeli chcesz stabilnej jakości, potrzebujesz stabilnych testów. Syntetyczne dane pomagają budować pokrycie i regresje, ale tylko pod warunkiem, że są weryfikowalne i zarządzane jak produkt.

W skrócie
  • syntetyczne dane są przydatne, ale muszą przejść bramki (schema, cytowania, PII)
  • dataset jest artefaktem: wersja, owner, log zmian, review
  • rubryka jest równie ważna jak pytania — inaczej oceniasz styl, nie poprawność
  • CI i regresje mają sens tylko, gdy testy są stabilne i weryfikowalne
Jeśli to ma wejść do procesu, proszę traktować ten rozdział jako standard operacyjny.
Uwaga: „syntetyczne” dane nie zwalniają z rzetelności. Zwłaszcza w edukacji. Jeśli materiał ma trafić do studentów, to każdy element musi przejść weryfikację — inaczej to jest tylko ładna narracja.

1. Po co syntetyczne dane i gdzie są pułapki

Syntetyczne dane ewaluacyjne (pytania, zadania, odpowiedzi wzorcowe, rubryki) są przydatne, gdy:

  • chcesz szybko pokryć program (coverage) i poziomy trudności,
  • budujesz regresje jakości (CI) i potrzebujesz powtarzalności,
  • testujesz nowe polityki (no‑answer, cytowania, bramki narzędziowe).

Pułapki są klasyczne: halucynacje, stronniczość, przemycenie danych wrażliwych, oraz „testy”, które w praktyce testują styl wypowiedzi, a nie poprawność.

2. Pipeline: generator → bramki → golden set

Syntetyczne dane ewaluacyjne — pipeline i bramki
Wzorzec praktyczny: traktuj dataset jak produkt. Ma wersję, właściciela, log zmian i bramki. Inaczej w testach wygrywa przypadek.

3. Bramki weryfikacji: co musi przejść

Bramka Wymóg Przykład odrzucenia
Schema format zgodny z kontraktem (JSON Schema, pola obowiązkowe) brak kryteriów oceny lub brak źródeł
Cytowania / dowody tam, gdzie są fakty: źródło + fragment + wersja odpowiedź brzmi dobrze, ale nie ma dowodu
PII / DLP brak danych osobowych i wrażliwych realne nazwisko, numer, identyfikator
Duplikaty i przecieki deduplikacja + kontrola podobieństwa to samo zadanie „w przebraniu”

4. Rubryki: jak oceniać, żeby to miało sens

Najlepszy dataset jest bezużyteczny, jeśli nie masz rubryki. Minimalna rubryka w edukacji:

  • poprawność merytoryczna (0/1 lub skala),
  • pokrycie wymagań zadania (coverage),
  • dowody/cytowania (gdy wymagane),
  • styl i standard językowy (na końcu, nie na początku).

5. Wersjonowanie datasetów i CI

Dataset musi być wersjonowany i przypięty do regresji. W przeciwnym razie nie wiesz, czy „system jest lepszy”, czy po prostu „testy się zmieniły”.

datasets/
  edu-golden/
    v1.0/
    v1.1/
  prompts/
  rubrics/
  reports/

6. Powiązane rozdziały

Następny krok

Jeśli zależy Ci na utrzymaniu jakości w czasie, dopnij harness i raporty regresji.

Przejdź do test harness