Procedura

Ewaluacja RAG i atrybucja

RAG jest wartościowy tylko wtedy, gdy można go zmierzyć. W produkcji nie wystarczy „wydaje się, że działa” — potrzebujesz metryk retrieval, metryk cytowań i procedury analizy błędów. Ten rozdział pokazuje, jak zbudować ewaluację RAG w standardzie audytowalnym.

Czas czytania: ~17 min Aktualizacja: 2026-01-09

Rozszerzenie praktyczne

Operacyjny skrót

Ten rozdział należy do rodziny Wiedza i źródła i ma formę Procedura. Poniższe dopowiedzenie ma jeden cel: przełożyć treść na działania, które da się wdrożyć, zmierzyć i utrzymać.

Checklista

Ustal SSOT i hierarchię źródeł (co jest kanoniczne, co pomocnicze).
Zaprojektuj retrieval: filtry, hybryda (keyword+semantics), reranking.
Wprowadź cytowania i atrybucję (proweniencja w odpowiedzi).
Zadbaj o świeżość i konflikty źródeł (zasady rozstrzygania).
Monitoruj jakość retrieval (trafność, pokrycie, dryft).
Zastosuj uprawnienia, redakcję danych i logowanie zapytań.

Najczęstsze pułapki

RAG bez cytowań – nie da się audytować, skąd wzięła się teza.
Chunking „na oko” – zbyt duże lub zbyt małe fragmenty psują trafność.
Brak polityki świeżości – model miesza stare i nowe wersje informacji.
Ignorowanie uprawnień – wycieki danych przez zbyt szeroki kontekst.

Artefakty w Luage

context_packet sources:ssot citations_contract retrieval_metrics access_policy

Standard działa dopiero wtedy, gdy ma właściciela, wersję, ślad (trace) oraz test regresyjny.

Szablon do skopiowania

Szkielet „context packet” (źródła + zasady)

context_packet: support.reply@v3
sources:
  - id: kb:refund_policy
    version: 1.7
    cite_as: "[1]"
  - id: kb:pricing
    version: 3.2
    cite_as: "[2]"
rules:
  - "Każde twierdzenie faktograficzne musi mieć cytowanie"
  - "Gdy źródła są sprzeczne → wybierz SSOT i pokaż konflikt"

Źródła i reguły to „kontrakt prawdy” – bez tego rośnie ryzyko halucynacji.

Minimalny zestaw

Golden set: pytania + oczekiwane źródła (lub kryteria źródeł).
Wynik zawiera cytowania (claim → dowód).
Logujesz retrieval trace: query, filtry, top‑k, rerank.
Masz taksonomię błędów: brak źródeł, zły dokument, sprzeczne źródła.

2. Dane testowe (golden set)

Golden set powinien zawierać nie tylko pytanie, ale też oczekiwany dowód: identyfikator dokumentu, sekcję lub fragment tekstu, który uzasadnia odpowiedź.

{ "query_id": "SUP-0142", "question": "Jakie są warunki zwrotu w ciągu 14 dni?", "expected_evidence": [ { "doc_id": "policy_returns_v3", "section": "14-dni" } ], "notes": "Wymaga cytowania polityki, nie bloga." }

3. Metryki retrieval

Metryka	Znaczenie	Jak interpretować
Recall@k	Czy poprawny dokument pojawia się w top‑k?	Niski recall zwykle wskazuje na problem z indeksem lub query.
Precision@k	Jaki odsetek top‑k jest trafny?	Niska precision = szum; model ma większą pokusę halucynacji.
MRR	Pozycja pierwszego trafienia.	Spadek MRR często oznacza pogorszenie rankingu/re‑rankingu.

6. Automatyzacja: bramki w CI

Najbardziej praktyczne jest podejście „gates + trend”: pojedynczy wynik może być losowy, ale trend i bramki chronią przed regresjami.

{ "run_id": "2026-01-09T11:22Z", "index_version": "kb_support@2026-01-08", "policy_version": "citations_v1.3", "metrics": { "recall_at_5": 0.92, "mrr": 0.71, "citation_coverage": 0.88, "cite_hallucination_rate": 0.02 }, "gate": "PASS" }

Ewaluacja RAG i atrybucja

Operacyjny skrót

Checklista

Najczęstsze pułapki

Artefakty w Luage

Szkielet „context packet” (źródła + zasady)

1. Cel procedury

2. Dane testowe (golden set)

3. Metryki retrieval

4. Metryki dowodowe (cytowania i „faithfulness”)

5. Analiza błędów (taksonomia)

6. Automatyzacja: bramki w CI

7. Wizualizacje wyników

8. Checklist

Powiązane