Procedura testów: golden set z oczekiwaną ścieżką, metryki dowodowe i bramki publikacji (SLO).
W skrócie
GraphRAG mierzy się ścieżkami i dowodami, nie tylko brzmieniem odpowiedzi
Golden set powinien zawierać oczekiwaną ścieżkę i dowody
Evidence coverage bywa twardą bramką publikacji
Stability/drift chroni przed „cichą” degradacją
Ten rozdział jest naturalnym uzupełnieniem klasycznej ewaluacji RAG.
W praktyce: GraphRAG ocenia się inaczej niż klasyczny RAG. Musisz mierzyć nie tylko trafność,
ale także poprawność ścieżek relacyjnych i dowodowość (auditability).
1. Co oznacza „dobry” GraphRAG
Dla GraphRAG minimalna definicja jakości obejmuje:
trafność odpowiedzi,
poprawność ścieżki (czy relacje prowadzą do właściwych faktów),
dowodowość (czy każda relacja ma provenance i czy cytowania są przypięte do twierdzeń),
stabilność w czasie (czy zmiany grafu nie powodują niekontrolowanych regresji).
2. Projekt golden set (ścieżka + dowody)
Golden set dla GraphRAG to nie tylko „pytanie i oczekiwana odpowiedź”.
Zalecany format:
query,
oczekiwane encje kluczowe (canonical_id),
oczekiwana relacja/ścieżka (lub dopuszczalne warianty),
lista dowodów (doc@ver + chunk_id) dla kluczowych relacji.
Nie oszukuj datasetu: jeśli w golden set nie ma dowodów, to testujesz tylko „ładne zdania”.
3. Pipeline ewaluacyjny
4. Metryki, które mają sens
Metryka
Co mierzy
Jak liczyć
Path accuracy
poprawność relacji
zgodność ścieżki z oczekiwaną (dokładna lub dopuszczalne warianty)
Evidence coverage
dowodowość
% relacji użytych w odpowiedzi, które mają kompletne dowody
Attribution
mapowanie claim→źródło
% twierdzeń z przypisanym dowodem (kontrakt cytowań)
Stability / drift
stabilność zmian
różnica wyników między wersjami grafu i indeksu
5. Protokół eksperymentu
Wybierz wersję grafu i źródeł (doc@ver).
Uruchom runner z jawnie ustawionym plannerem (budżet, strategia, timeout).
Zapisz trace (per query): użyte encje, relacje, dowody, decyzje bramek.
Policz metryki i porównaj z baseline.
W razie regresji: analiza błędów + decyzja (fix / wyjątek / rollback).
6. Bramki publikacji (SLO)
Bramki powinny być twarde dla dowodowości, a elastyczniejsze dla „stylu” odpowiedzi:
Evidence coverage — wymóg (np. 1.0 dla krytycznych domen).
Path accuracy — próg (np. ≥ 0.85) zależny od domeny.