Kontrakt cytowań i provenance: standard wiarygodnego RAG
Jak zamienić „źródła na końcu” w kontrakt, który da się testować: claim → dowód → cytowanie → audyt. Bez marketingowych obietnic, z mechaniką, która działa w produkcji.
W skrócie
taksonomia twierdzeń i wymagany dowód
wzorzec claim → citation slots
Citation Gate (PASS/WARN/BLOCK)
artefakty do audytu i regresji
Cel i zakres
„Kontrakt cytowań” to prosta zasada: każde istotne twierdzenie musi mieć dowód,
a dowód musi być adresowalny (da się do niego wrócić) i wersjonowalny (wiadomo, z jakiego stanu wiedzy pochodzi).
To jest różnica między tekstem „ładnym” a tekstem produkcyjnym.
Minimalna definicja rzetelności w Luage
Rzetelność nie oznacza, że model „zawsze ma rację”. Oznacza, że system potrafi
wykazać źródło albo uczciwie przyznać brak dowodu — zanim informacja trafi do studenta, klienta lub procedury.
Zasady kontraktu cytowań
Źródło jest częścią odpowiedzi: odpowiedź bez źródła to szkic, nie artefakt.
Dowód ma identyfikator: dokument + wersja + fragment (chunk) albo log/metryka + snapshot.
Niepewność jest jawna: gdy brak dowodu, model mówi „nie wiem” i proponuje drogę pozyskania źródła.
Cytowanie jest testowalne: Citation Gate i regresje wykrywają odpowiedzi „bez pokrycia”.
Taksonomia twierdzeń i wymagany dowód
W praktyce „cytowanie” nie jest jednolite. Inne wymagania ma definicja terminu, inne liczba, a inne rekomendacja.
Poniżej jest interaktywna taksonomia — można ją bezpośrednio przełożyć na bramki w Engine.
Rys. 1. Taksonomia twierdzeń i minimalny standard dowodu (kliknij typ twierdzenia).
—
Zasady minimalne
Bramka (Gate)
—
Artefakt do audytu
—
Implementacja w Engine
W Luage najbezpieczniejszy model operacyjny to rozdzielenie:
generowania treści od wiązań dowodowych.
Engine powinien umieć „przypiąć” cytowania do konkretnych fragmentów, a nie tylko wypisać listę linków na końcu.
Wzorzec: claim → citation slots
Najpierw model generuje listę twierdzeń, następnie dla każdego twierdzenia Engine wypełnia citation slots (RAG, indeks, rejestry),
a dopiero potem składa odpowiedź końcową.
Citation Gate to prosta reguła w CI: jeśli odpowiedź zawiera twierdzenia określonego typu,
to musi zawierać odpowiadające im cytowania (sloty) oraz spełniać minimalny format.
BLOCK: brak cytowania dla definicji/liczb/cytatu, gdy tryb wymaga dowodów.
WARN: cytowania są, ale nie mają wersji albo chunk nie istnieje.
PASS: cytowania są kompletne i można je odtworzyć.
Checklista
Czy każda liczba ma punkt odniesienia (czas/wersja/środowisko)?
Czy cytaty są krótkie i mają wskazany fragment?
Czy źródła są wersjonowane (albo mają snapshot)?
Czy odpowiedź umie powiedzieć „nie wiem” i wskazać brakujące źródło?