Procedura

Ewaluacja GraphRAG: ścieżki, dowody, stabilność

Procedura testów: golden set z oczekiwaną ścieżką, metryki dowodowe i bramki publikacji (SLO).

W skrócie
  • GraphRAG mierzy się ścieżkami i dowodami, nie tylko brzmieniem odpowiedzi
  • Golden set powinien zawierać oczekiwaną ścieżkę i dowody
  • Evidence coverage bywa twardą bramką publikacji
  • Stability/drift chroni przed „cichą” degradacją
Ten rozdział jest naturalnym uzupełnieniem klasycznej ewaluacji RAG.
W praktyce: GraphRAG ocenia się inaczej niż klasyczny RAG. Musisz mierzyć nie tylko trafność, ale także poprawność ścieżek relacyjnych i dowodowość (auditability).

1. Co oznacza „dobry” GraphRAG

Dla GraphRAG minimalna definicja jakości obejmuje:

  • trafność odpowiedzi,
  • poprawność ścieżki (czy relacje prowadzą do właściwych faktów),
  • dowodowość (czy każda relacja ma provenance i czy cytowania są przypięte do twierdzeń),
  • stabilność w czasie (czy zmiany grafu nie powodują niekontrolowanych regresji).

2. Projekt golden set (ścieżka + dowody)

Golden set dla GraphRAG to nie tylko „pytanie i oczekiwana odpowiedź”. Zalecany format:

  • query,
  • oczekiwane encje kluczowe (canonical_id),
  • oczekiwana relacja/ścieżka (lub dopuszczalne warianty),
  • lista dowodów (doc@ver + chunk_id) dla kluczowych relacji.
Nie oszukuj datasetu: jeśli w golden set nie ma dowodów, to testujesz tylko „ładne zdania”.

3. Pipeline ewaluacyjny

Ewaluacja: golden set → runner → metryki → gate → raport i regresje

4. Metryki, które mają sens

Metryka Co mierzy Jak liczyć
Path accuracy poprawność relacji zgodność ścieżki z oczekiwaną (dokładna lub dopuszczalne warianty)
Evidence coverage dowodowość % relacji użytych w odpowiedzi, które mają kompletne dowody
Attribution mapowanie claim→źródło % twierdzeń z przypisanym dowodem (kontrakt cytowań)
Stability / drift stabilność zmian różnica wyników między wersjami grafu i indeksu

5. Protokół eksperymentu

  1. Wybierz wersję grafu i źródeł (doc@ver).
  2. Uruchom runner z jawnie ustawionym plannerem (budżet, strategia, timeout).
  3. Zapisz trace (per query): użyte encje, relacje, dowody, decyzje bramek.
  4. Policz metryki i porównaj z baseline.
  5. W razie regresji: analiza błędów + decyzja (fix / wyjątek / rollback).

6. Bramki publikacji (SLO)

Bramki powinny być twarde dla dowodowości, a elastyczniejsze dla „stylu” odpowiedzi:

  • Evidence coverage — wymóg (np. 1.0 dla krytycznych domen).
  • Path accuracy — próg (np. ≥ 0.85) zależny od domeny.
  • Stability — brak nagłych skoków w regresjach.

7. Powiązane

Na tej stronie
Spis
    Metryki „twarde”
    • evidence coverage
    • attribution (claim→dowód)
    • path accuracy