W systemach, które mają być rzetelne, „pewność” jest decyzją procesową. Kalibruj odpowiedzi na bazie dowodów (cytowania, bramki, konflikty źródeł), a nie na bazie tonu wypowiedzi modelu.
W skrócie
kalibracja to polityka systemu oparta o sygnały dowodowe, nie „pewność modelu”
tryby odpowiedzi muszą być jawne: answer / conditional / no‑answer
progi dobiera się na golden set i utrzymuje w monitoring/regresjach
Jeśli to ma wejść do procesu, proszę traktować ten rozdział jako standard operacyjny.
Fakt operacyjny: model nie ma „paska pewności”, który można traktować jako prawdę.
Kalibracja to polityka systemu oparta o sygnały dowodowe: źródła, bramki, konflikty, testy.
1. Dlaczego „pewność” modelu jest zdradliwa
LLM potrafi brzmieć autorytatywnie nawet wtedy, gdy nie ma wystarczających podstaw. W produkcji nie interesuje nas styl,
tylko dowód i kontrolowana degradacja.
2. Sygnały niepewności: co mierzyć
Dobre sygnały pochodzą z warstw systemu, nie z „intuicji modelu”:
coverage cytowań (ile tez ma dowód),
konflikty źródeł (sprzeczne dokumenty w SSOT),
retrieval score i stabilność top‑k,
tool success (czy narzędzia zwróciły wynik i przeszły walidację),
regresje (czy to zadanie wcześniej przechodziło testy).
3. Polityka progu i tryby odpowiedzi
W praktyce ustalasz progi, które wybierają tryb odpowiedzi:
Odpowiedz i cytuj — gdy dowody są kompletne.
Odpowiedz warunkowo — gdy są braki, ale da się wskazać ryzyka i założenia.
No‑answer — gdy brak podstaw, są konflikty lub ryzyko jest zbyt wysokie.
Uwaga: tryb „odpowiedz warunkowo” nie może być wymówką.
Musi jasno mówić, czego brakuje i jak to uzupełnić.
4. Jak kalibrować progi (bez magii)
zdefiniuj golden set i rubryki,
uruchom regresje na wersjach systemu,
dobierz progi (np. coverage cytowań) pod wymagany poziom rzetelności,
utrzymuj progi w czasie (review, drift).
To tradycyjna praktyka z systemów wysokiej jakości: próg to decyzja biznesowa, a nie „parametr modelu”.