Procedura

Ewaluacja RAG i atrybucja

RAG jest wartościowy tylko wtedy, gdy można go zmierzyć. W produkcji nie wystarczy „wydaje się, że działa” — potrzebujesz metryk retrieval, metryk cytowań i procedury analizy błędów. Ten rozdział pokazuje, jak zbudować ewaluację RAG w standardzie audytowalnym.

Czas czytania: ~17 min Aktualizacja: 2026-01-09
Minimalny zestaw
  • Golden set: pytania + oczekiwane źródła (lub kryteria źródeł).
  • Wynik zawiera cytowania (claim → dowód).
  • Logujesz retrieval trace: query, filtry, top‑k, rerank.
  • Masz taksonomię błędów: brak źródeł, zły dokument, sprzeczne źródła.
Pipeline ewaluacji: retrieval → evidence → odpowiedź z cytowaniami → scoring → gate.
Pipeline ewaluacji: retrieval → evidence → odpowiedź z cytowaniami → scoring → gate.
Cel praktyczny: nie „maksymalna dokładność”, tylko kontrola regresji. System ma być przewidywalny: gdy zmieniasz indeks, politykę lub prompt — wiesz, co się pogorszyło i dlaczego.

1. Cel procedury

Ewaluacja RAG odpowiada na pytania:

  • Czy retrieval znajduje właściwe źródła?
  • Czy odpowiedź jest oparta o dowody i poprawnie je cytuje?
  • Czy zmiany w indeksie/polityce powodują regresje?

2. Dane testowe (golden set)

Golden set powinien zawierać nie tylko pytanie, ale też oczekiwany dowód: identyfikator dokumentu, sekcję lub fragment tekstu, który uzasadnia odpowiedź.

{
  "query_id": "SUP-0142",
  "question": "Jakie są warunki zwrotu w ciągu 14 dni?",
  "expected_evidence": [
    { "doc_id": "policy_returns_v3", "section": "14-dni" }
  ],
  "notes": "Wymaga cytowania polityki, nie bloga."
}

3. Metryki retrieval

MetrykaZnaczenieJak interpretować
Recall@kCzy poprawny dokument pojawia się w top‑k?Niski recall zwykle wskazuje na problem z indeksem lub query.
Precision@kJaki odsetek top‑k jest trafny?Niska precision = szum; model ma większą pokusę halucynacji.
MRRPozycja pierwszego trafienia.Spadek MRR często oznacza pogorszenie rankingu/re‑rankingu.

4. Metryki dowodowe (cytowania i „faithfulness”)

W systemach „rzetelnych” najważniejsze są metryki dowodowe:

  • Coverage cytowań: jaki procent claimów ma dowód.
  • Attribution correctness: czy cytowany fragment faktycznie wspiera claim.
  • Provenance completeness: czy można wskazać doc_id, wersję i sekcję.

5. Analiza błędów (taksonomia)

NO‑SRC
Brak źródeł w retrieval lub filtry zbyt agresywne.
WRONG‑DOC
Źródła są, ale z niewłaściwego dokumentu lub wersji.
CITE‑HALL
Model cytuje fragment, który nie zawiera wspierającej treści.

6. Automatyzacja: bramki w CI

Najbardziej praktyczne jest podejście „gates + trend”: pojedynczy wynik może być losowy, ale trend i bramki chronią przed regresjami.

{
  "run_id": "2026-01-09T11:22Z",
  "index_version": "kb_support@2026-01-08",
  "policy_version": "citations_v1.3",
  "metrics": {
    "recall_at_5": 0.92,
    "mrr": 0.71,
    "citation_coverage": 0.88,
    "cite_hallucination_rate": 0.02
  },
  "gate": "PASS"
}

7. Wizualizacje wyników

Na potrzeby „premium” monitoringu rekomendujemy trzy widoki:

  • Trend metryk (p50/p95) po wersjach indeksu.
  • Atlas błędów: NO‑SRC vs WRONG‑DOC vs CITE‑HALL, z drill‑down do przykładów.
  • Mapa źródeł: które dokumenty są najczęściej cytowane i gdzie są „dziury”.

8. Checklist

  • Golden set jest wersjonowany i reprezentatywny.
  • Logujesz retrieval trace i provenance.
  • Masz metryki retrieval i metryki cytowań.
  • Regresje blokują rollout (gate) albo wymuszają approval.

Powiązane

Skrót: trzy poziomy jakości
  1. Retrieval (czy znalazł).
  2. Attribution (czy cytowanie pasuje).
  3. Decision (czy system poprawnie zareagował na brak dowodów).