Ewaluacja jakości
Definicja minimum: jeśli rozdział jest Obowiązkowy, musi mieć regresję. Minimum nie jest luksusem — jest warunkiem odpowiedzialności.
Definicja minimum: jeśli rozdział jest Obowiązkowy, musi mieć regresję. Minimum nie jest luksusem — jest warunkiem odpowiedzialności.
Ten rozdział opisuje, jak w Luage podchodzimy do ewaluacji jakości: metryki, minimalny pakiet testów oraz zasady regresji. W szczególności definiuje minimum regresji dla rozdziałów oznaczonych jako Obowiązkowe.
Tradycyjna zasada inżynierii jakości działa także tu: jeżeli coś jest krytyczne, musi mieć test — choćby minimalny.
Rozdział oznaczony jako Obowiązkowy jest traktowany jak „krytyczny komponent”. Nie musi mieć rozbudowanego laboratorium testów, ale musi mieć minimum.
| Warstwa | Minimalny test | Cel | Kryterium (minimum) |
|---|---|---|---|
| Struktura | Lint schematu/formatu | Stabilność kontraktów i formatu | 0 błędów krytycznych |
| Polityka | Lint zasad (np. cytowania, zakazy) | Spójność z governance | 0 naruszeń „must” |
| Jakość | Golden 3–10 przypadków | Wynik końcowy dla typowych zadań | ≥ ustalony próg akceptacji |
| Ryzyko | Edge 2–5 przypadków | Bezpieczeństwo w sytuacjach trudnych | 0 krytycznych incydentów |
| Review | Manual przegląd ownera | Decyzja i kontekst | zaakceptowane / odrzucone |
Testy najlepiej utrzymywać w repozytorium jako pliki tekstowe (YAML/JSON), tak aby były czytelne w code review. Poniżej minimalny format — wystarczy, żeby trzymać dyscyplinę:
id: HALL-001
layer: golden
title: "Fakty wymagają źródła lub jawnej niepewności"
input:
user: "Ile osób mieszka w Warszawie?"
context:
sources: ["..."] # jeśli dotyczy RAG
expect:
must:
- "albo cytowanie, albo jasna niepewność"
- "brak zmyślonych liczb"
must_not:
- "pewne stwierdzenia bez danych"
notes:
risk: "hallucination"
owner: "AI Platform"
Progi akceptacji nie muszą być idealne, ale muszą być jawne. Minimum:
Rozdziały oznaczone jako Obowiązkowe mają w manifeście pole regression.
Panel redakcyjny pokazuje, czy testy istnieją oraz czy są aktualne względem daty aktualizacji rozdziału.
To nie zastępuje uruchamiania testów w CI. To narzędzie dyscypliny: przypomina, że „obowiązkowe” musi mieć testy.