Procedura

Ewaluacja GraphRAG: ścieżki, dowody, stabilność

Procedura testów: golden set z oczekiwaną ścieżką, metryki dowodowe i bramki publikacji (SLO).

Rozszerzenie praktyczne

Operacyjny skrót

Ten rozdział należy do rodziny Wiedza i źródła i ma formę Procedura. Poniższe dopowiedzenie ma jeden cel: przełożyć treść na działania, które da się wdrożyć, zmierzyć i utrzymać.

Checklista

  • Ustal SSOT i hierarchię źródeł (co jest kanoniczne, co pomocnicze).
  • Zaprojektuj retrieval: filtry, hybryda (keyword+semantics), reranking.
  • Wprowadź cytowania i atrybucję (proweniencja w odpowiedzi).
  • Zadbaj o świeżość i konflikty źródeł (zasady rozstrzygania).
  • Monitoruj jakość retrieval (trafność, pokrycie, dryft).
  • Zastosuj uprawnienia, redakcję danych i logowanie zapytań.

Najczęstsze pułapki

  • RAG bez cytowań – nie da się audytować, skąd wzięła się teza.
  • Chunking „na oko” – zbyt duże lub zbyt małe fragmenty psują trafność.
  • Brak polityki świeżości – model miesza stare i nowe wersje informacji.
  • Ignorowanie uprawnień – wycieki danych przez zbyt szeroki kontekst.

Artefakty w Luage

context_packet sources:ssot citations_contract retrieval_metrics access_policy

Standard działa dopiero wtedy, gdy ma właściciela, wersję, ślad (trace) oraz test regresyjny.

Szablon do skopiowania

Szkielet „context packet” (źródła + zasady)

context_packet: support.reply@v3
sources:
  - id: kb:refund_policy
    version: 1.7
    cite_as: "[1]"
  - id: kb:pricing
    version: 3.2
    cite_as: "[2]"
rules:
  - "Każde twierdzenie faktograficzne musi mieć cytowanie"
  - "Gdy źródła są sprzeczne → wybierz SSOT i pokaż konflikt"

Źródła i reguły to „kontrakt prawdy” – bez tego rośnie ryzyko halucynacji.

W skrócie
  • GraphRAG mierzy się ścieżkami i dowodami, nie tylko brzmieniem odpowiedzi
  • Golden set powinien zawierać oczekiwaną ścieżkę i dowody
  • Evidence coverage bywa twardą bramką publikacji
  • Stability/drift chroni przed „cichą” degradacją
Ten rozdział jest naturalnym uzupełnieniem klasycznej ewaluacji RAG.
W praktyce: GraphRAG ocenia się inaczej niż klasyczny RAG. Musisz mierzyć nie tylko trafność, ale także poprawność ścieżek relacyjnych i dowodowość (auditability).

1. Co oznacza „dobry” GraphRAG

Dla GraphRAG minimalna definicja jakości obejmuje:

  • trafność odpowiedzi,
  • poprawność ścieżki (czy relacje prowadzą do właściwych faktów),
  • dowodowość (czy każda relacja ma provenance i czy cytowania są przypięte do twierdzeń),
  • stabilność w czasie (czy zmiany grafu nie powodują niekontrolowanych regresji).

2. Projekt golden set (ścieżka + dowody)

Golden set dla GraphRAG to nie tylko „pytanie i oczekiwana odpowiedź”. Zalecany format:

  • query,
  • oczekiwane encje kluczowe (canonical_id),
  • oczekiwana relacja/ścieżka (lub dopuszczalne warianty),
  • lista dowodów (doc@ver + chunk_id) dla kluczowych relacji.
Nie oszukuj datasetu: jeśli w golden set nie ma dowodów, to testujesz tylko „ładne zdania”.

3. Pipeline ewaluacyjny

Ewaluacja: golden set → runner → metryki → gate → raport i regresje

4. Metryki, które mają sens

Metryka Co mierzy Jak liczyć
Path accuracy poprawność relacji zgodność ścieżki z oczekiwaną (dokładna lub dopuszczalne warianty)
Evidence coverage dowodowość % relacji użytych w odpowiedzi, które mają kompletne dowody
Attribution mapowanie claim→źródło % twierdzeń z przypisanym dowodem (kontrakt cytowań)
Stability / drift stabilność zmian różnica wyników między wersjami grafu i indeksu

5. Protokół eksperymentu

  1. Wybierz wersję grafu i źródeł (doc@ver).
  2. Uruchom runner z jawnie ustawionym plannerem (budżet, strategia, timeout).
  3. Zapisz trace (per query): użyte encje, relacje, dowody, decyzje bramek.
  4. Policz metryki i porównaj z baseline.
  5. W razie regresji: analiza błędów + decyzja (fix / wyjątek / rollback).

6. Bramki publikacji (SLO)

Bramki powinny być twarde dla dowodowości, a elastyczniejsze dla „stylu” odpowiedzi:

  • Evidence coverage — wymóg (np. 1.0 dla krytycznych domen).
  • Path accuracy — próg (np. ≥ 0.85) zależny od domeny.
  • Stability — brak nagłych skoków w regresjach.

7. Powiązane

Na tej stronie
Spis
    Metryki „twarde”
    • evidence coverage
    • attribution (claim→dowód)
    • path accuracy