Checklist

Checklisty jakości (review)

Dobrze zrobiona checklista jest krótka, egzekwowalna i ma jedno zadanie: zatrzymać słaby materiał zanim trafi do użytkownika lub na produkcję. Poniżej jest zestaw, który nadaje się zarówno do rozdziałów Compendium, jak i do promptów, RAG oraz integracji narzędzi.

Rozszerzenie praktyczne

Operacyjny skrót

Ten rozdział należy do rodziny Jakość i ewaluacja i ma formę Checklist. Poniższe dopowiedzenie ma jeden cel: przełożyć treść na działania, które da się wdrożyć, zmierzyć i utrzymać.

Checklista

Zdefiniuj metryki jakości (dokładność, kompletność, styl, cytowania).
Zbuduj golden set (reprezentatywne przypadki) i test harness.
Rozdziel testy offline (regresje) i online (monitoring produkcji).
Wprowadź progi akceptacji i „quality gates” przed wdrożeniem.
Monitoruj dryft: dane, retrieval, modele, zachowanie użytkowników.
Raportuj i domykaj działania: poprawki, rollback, kompensacje.

Najczęstsze pułapki

Testowanie na „ładnych” przykładach – wynik nie skaluje się na produkcję.
Brak wersjonowania danych testowych – nie wiadomo, co zmieniło wynik.
Mierzenie jednego wskaźnika – optymalizacja psuje inne wymiary jakości.
Brak obserwowalności – problem widać dopiero w skargach klientów.

Artefakty w Luage

golden_set eval_harness quality_gate monitoring regression_report

Standard działa dopiero wtedy, gdy ma właściciela, wersję, ślad (trace) oraz test regresyjny.

Szablon do skopiowania

Definicja metryk (minimalny kontrakt)

quality:
  metrics:
    - id: factuality
      scale: 0..5
      requires_citations: true
    - id: style
      scale: 0..5
      policy: language.standard@0.9
  gates:
    - "factuality >= 4"
    - "style >= 4"

Najpierw metryki i golden set, potem „przyspieszanie” promptu. Inaczej optymalizujesz złudzenia.

W skrócie

Blokuj, gdy brak źródeł / brak kontraktu / niejasna odpowiedzialność.
Ostrzegaj, gdy forma jest niespójna, a wynik „płynie”.
Mierz: checklista bez metryk zamienia się w „opinię”.

Checklisty jakości (review)

Operacyjny skrót

Checklista

Najczęstsze pułapki

Artefakty w Luage

Definicja metryk (minimalny kontrakt)

1. Zasady checklist (żeby działały)

2. Szybki review (narzędzie)

3. Checklist promptu i polityki

4. Checklist źródeł i cytowań (RAG)

5. Checklist narzędzi (Tool Gateway)

6. Checklist regresji (po zmianie)

7. Powiązane