RAG jest wartościowy tylko wtedy, gdy można go zmierzyć. W produkcji nie wystarczy „wydaje się, że działa” — potrzebujesz metryk retrieval, metryk cytowań i procedury analizy błędów. Ten rozdział pokazuje, jak zbudować ewaluację RAG w standardzie audytowalnym.
Czas czytania: ~17 minAktualizacja: 2026-01-09
Minimalny zestaw
Golden set: pytania + oczekiwane źródła (lub kryteria źródeł).
Cel praktyczny: nie „maksymalna dokładność”, tylko kontrola regresji.
System ma być przewidywalny: gdy zmieniasz indeks, politykę lub prompt — wiesz, co się pogorszyło i dlaczego.
1. Cel procedury
Ewaluacja RAG odpowiada na pytania:
Czy retrieval znajduje właściwe źródła?
Czy odpowiedź jest oparta o dowody i poprawnie je cytuje?
Czy zmiany w indeksie/polityce powodują regresje?
2. Dane testowe (golden set)
Golden set powinien zawierać nie tylko pytanie, ale też oczekiwany dowód:
identyfikator dokumentu, sekcję lub fragment tekstu, który uzasadnia odpowiedź.
{
"query_id": "SUP-0142",
"question": "Jakie są warunki zwrotu w ciągu 14 dni?",
"expected_evidence": [
{ "doc_id": "policy_returns_v3", "section": "14-dni" }
],
"notes": "Wymaga cytowania polityki, nie bloga."
}
3. Metryki retrieval
Metryka
Znaczenie
Jak interpretować
Recall@k
Czy poprawny dokument pojawia się w top‑k?
Niski recall zwykle wskazuje na problem z indeksem lub query.
Precision@k
Jaki odsetek top‑k jest trafny?
Niska precision = szum; model ma większą pokusę halucynacji.
MRR
Pozycja pierwszego trafienia.
Spadek MRR często oznacza pogorszenie rankingu/re‑rankingu.
4. Metryki dowodowe (cytowania i „faithfulness”)
W systemach „rzetelnych” najważniejsze są metryki dowodowe:
Coverage cytowań: jaki procent claimów ma dowód.
Attribution correctness: czy cytowany fragment faktycznie wspiera claim.
Provenance completeness: czy można wskazać doc_id, wersję i sekcję.
5. Analiza błędów (taksonomia)
NO‑SRC
Brak źródeł w retrieval lub filtry zbyt agresywne.
WRONG‑DOC
Źródła są, ale z niewłaściwego dokumentu lub wersji.
CITE‑HALL
Model cytuje fragment, który nie zawiera wspierającej treści.
6. Automatyzacja: bramki w CI
Najbardziej praktyczne jest podejście „gates + trend”: pojedynczy wynik może być losowy,
ale trend i bramki chronią przed regresjami.