Przewodnik

Niepewność i kalibracja odpowiedzi

W systemach, które mają być rzetelne, „pewność” jest decyzją procesową. Kalibruj odpowiedzi na bazie dowodów (cytowania, bramki, konflikty źródeł), a nie na bazie tonu wypowiedzi modelu.

Rozszerzenie praktyczne

Operacyjny skrót

Ten rozdział należy do rodziny Jakość i ewaluacja i ma formę Przewodnik. Poniższe dopowiedzenie ma jeden cel: przełożyć treść na działania, które da się wdrożyć, zmierzyć i utrzymać.

Checklista

  • Zdefiniuj metryki jakości (dokładność, kompletność, styl, cytowania).
  • Zbuduj golden set (reprezentatywne przypadki) i test harness.
  • Rozdziel testy offline (regresje) i online (monitoring produkcji).
  • Wprowadź progi akceptacji i „quality gates” przed wdrożeniem.
  • Monitoruj dryft: dane, retrieval, modele, zachowanie użytkowników.
  • Raportuj i domykaj działania: poprawki, rollback, kompensacje.

Najczęstsze pułapki

  • Testowanie na „ładnych” przykładach – wynik nie skaluje się na produkcję.
  • Brak wersjonowania danych testowych – nie wiadomo, co zmieniło wynik.
  • Mierzenie jednego wskaźnika – optymalizacja psuje inne wymiary jakości.
  • Brak obserwowalności – problem widać dopiero w skargach klientów.

Artefakty w Luage

golden_set eval_harness quality_gate monitoring regression_report

Standard działa dopiero wtedy, gdy ma właściciela, wersję, ślad (trace) oraz test regresyjny.

Szablon do skopiowania

Definicja metryk (minimalny kontrakt)

quality:
  metrics:
    - id: factuality
      scale: 0..5
      requires_citations: true
    - id: style
      scale: 0..5
      policy: language.standard@0.9
  gates:
    - "factuality >= 4"
    - "style >= 4"

Najpierw metryki i golden set, potem „przyspieszanie” promptu. Inaczej optymalizujesz złudzenia.

W skrócie
  • kalibracja to polityka systemu oparta o sygnały dowodowe, nie „pewność modelu”
  • mierz: coverage cytowań, konflikty źródeł, retrieval score, tool success, regresje
  • tryby odpowiedzi muszą być jawne: answer / conditional / no‑answer
  • progi dobiera się na golden set i utrzymuje w monitoring/regresjach
Jeśli to ma wejść do procesu, proszę traktować ten rozdział jako standard operacyjny.
Fakt operacyjny: model nie ma „paska pewności”, który można traktować jako prawdę. Kalibracja to polityka systemu oparta o sygnały dowodowe: źródła, bramki, konflikty, testy.

1. Dlaczego „pewność” modelu jest zdradliwa

LLM potrafi brzmieć autorytatywnie nawet wtedy, gdy nie ma wystarczających podstaw. W produkcji nie interesuje nas styl, tylko dowód i kontrolowana degradacja.

2. Sygnały niepewności: co mierzyć

Dobre sygnały pochodzą z warstw systemu, nie z „intuicji modelu”:

  • coverage cytowań (ile tez ma dowód),
  • konflikty źródeł (sprzeczne dokumenty w SSOT),
  • retrieval score i stabilność top‑k,
  • tool success (czy narzędzia zwróciły wynik i przeszły walidację),
  • regresje (czy to zadanie wcześniej przechodziło testy).

3. Polityka progu i tryby odpowiedzi

Niepewność i kalibracja — sygnały do decyzji

W praktyce ustalasz progi, które wybierają tryb odpowiedzi:

  • Odpowiedz i cytuj — gdy dowody są kompletne.
  • Odpowiedz warunkowo — gdy są braki, ale da się wskazać ryzyka i założenia.
  • No‑answer — gdy brak podstaw, są konflikty lub ryzyko jest zbyt wysokie.
Uwaga: tryb „odpowiedz warunkowo” nie może być wymówką. Musi jasno mówić, czego brakuje i jak to uzupełnić.

4. Jak kalibrować progi (bez magii)

  1. zdefiniuj golden set i rubryki,
  2. uruchom regresje na wersjach systemu,
  3. dobierz progi (np. coverage cytowań) pod wymagany poziom rzetelności,
  4. utrzymuj progi w czasie (review, drift).

To tradycyjna praktyka z systemów wysokiej jakości: próg to decyzja biznesowa, a nie „parametr modelu”.

5. Powiązane rozdziały

Następny krok

Jeśli potrzebujesz twardej odmowy w razie braku danych, dopnij standard no‑answer.

Przejdź do no‑answer