Procedura

Ewaluacja GraphRAG: ścieżki, dowody, stabilność

Procedura testów: golden set z oczekiwaną ścieżką, metryki dowodowe i bramki publikacji (SLO).

Rozszerzenie praktyczne

Operacyjny skrót

Ten rozdział należy do rodziny Wiedza i źródła i ma formę Procedura. Poniższe dopowiedzenie ma jeden cel: przełożyć treść na działania, które da się wdrożyć, zmierzyć i utrzymać.

Checklista

Ustal SSOT i hierarchię źródeł (co jest kanoniczne, co pomocnicze).
Zaprojektuj retrieval: filtry, hybryda (keyword+semantics), reranking.
Wprowadź cytowania i atrybucję (proweniencja w odpowiedzi).
Zadbaj o świeżość i konflikty źródeł (zasady rozstrzygania).
Monitoruj jakość retrieval (trafność, pokrycie, dryft).
Zastosuj uprawnienia, redakcję danych i logowanie zapytań.

Najczęstsze pułapki

RAG bez cytowań – nie da się audytować, skąd wzięła się teza.
Chunking „na oko” – zbyt duże lub zbyt małe fragmenty psują trafność.
Brak polityki świeżości – model miesza stare i nowe wersje informacji.
Ignorowanie uprawnień – wycieki danych przez zbyt szeroki kontekst.

Artefakty w Luage

context_packet sources:ssot citations_contract retrieval_metrics access_policy

Standard działa dopiero wtedy, gdy ma właściciela, wersję, ślad (trace) oraz test regresyjny.

Szablon do skopiowania

Szkielet „context packet” (źródła + zasady)

context_packet: support.reply@v3
sources:
  - id: kb:refund_policy
    version: 1.7
    cite_as: "[1]"
  - id: kb:pricing
    version: 3.2
    cite_as: "[2]"
rules:
  - "Każde twierdzenie faktograficzne musi mieć cytowanie"
  - "Gdy źródła są sprzeczne → wybierz SSOT i pokaż konflikt"

Źródła i reguły to „kontrakt prawdy” – bez tego rośnie ryzyko halucynacji.

W skrócie

GraphRAG mierzy się ścieżkami i dowodami, nie tylko brzmieniem odpowiedzi
Golden set powinien zawierać oczekiwaną ścieżkę i dowody
Evidence coverage bywa twardą bramką publikacji
Stability/drift chroni przed „cichą” degradacją

Ten rozdział jest naturalnym uzupełnieniem klasycznej ewaluacji RAG.

1. Co oznacza „dobry” GraphRAG

Dla GraphRAG minimalna definicja jakości obejmuje:

trafność odpowiedzi,

poprawność ścieżki (czy relacje prowadzą do właściwych faktów),

dowodowość (czy każda relacja ma provenance i czy cytowania są przypięte do twierdzeń),

stabilność w czasie (czy zmiany grafu nie powodują niekontrolowanych regresji).

2. Projekt golden set (ścieżka + dowody)

Golden set dla GraphRAG to nie tylko „pytanie i oczekiwana odpowiedź”. Zalecany format:

query,

oczekiwane encje kluczowe (canonical_id),

oczekiwana relacja/ścieżka (lub dopuszczalne warianty),

lista dowodów (doc@ver + chunk_id) dla kluczowych relacji.

Nie oszukuj datasetu: jeśli w golden set nie ma dowodów, to testujesz tylko „ładne zdania”.

4. Metryki, które mają sens

Metryka	Co mierzy	Jak liczyć
Path accuracy	poprawność relacji	zgodność ścieżki z oczekiwaną (dokładna lub dopuszczalne warianty)
Evidence coverage	dowodowość	% relacji użytych w odpowiedzi, które mają kompletne dowody
Attribution	mapowanie claim→źródło	% twierdzeń z przypisanym dowodem (kontrakt cytowań)
Stability / drift	stabilność zmian	różnica wyników między wersjami grafu i indeksu

Metryka

Co mierzy

Jak liczyć

Path accuracy

poprawność relacji

zgodność ścieżki z oczekiwaną (dokładna lub dopuszczalne warianty)

Evidence coverage

dowodowość

% relacji użytych w odpowiedzi, które mają kompletne dowody

Attribution

mapowanie claim→źródło

% twierdzeń z przypisanym dowodem (kontrakt cytowań)

Stability / drift

stabilność zmian

różnica wyników między wersjami grafu i indeksu

5. Protokół eksperymentu

Wybierz wersję grafu i źródeł (doc@ver).

Uruchom runner z jawnie ustawionym plannerem (budżet, strategia, timeout).

Zapisz trace (per query): użyte encje, relacje, dowody, decyzje bramek.

Policz metryki i porównaj z baseline.

W razie regresji: analiza błędów + decyzja (fix / wyjątek / rollback).

Ewaluacja GraphRAG: ścieżki, dowody, stabilność

Operacyjny skrót

Checklista

Najczęstsze pułapki

Artefakty w Luage

Szkielet „context packet” (źródła + zasady)

1. Co oznacza „dobry” GraphRAG

2. Projekt golden set (ścieżka + dowody)

3. Pipeline ewaluacyjny

4. Metryki, które mają sens

5. Protokół eksperymentu

6. Bramki publikacji (SLO)

7. Powiązane