Standard

Proweniencja krawędzi i ścieżki dowodowe

Standard audytowalności GraphRAG: dowody dla relacji, polityki dostępu i wiązanie ścieżek z twierdzeniami.

Rozszerzenie praktyczne

Operacyjny skrót

Ten rozdział należy do rodziny Wiedza i źródła i ma formę Standard. Poniższe dopowiedzenie ma jeden cel: przełożyć treść na działania, które da się wdrożyć, zmierzyć i utrzymać.

Checklista

  • Ustal SSOT i hierarchię źródeł (co jest kanoniczne, co pomocnicze).
  • Zaprojektuj retrieval: filtry, hybryda (keyword+semantics), reranking.
  • Wprowadź cytowania i atrybucję (proweniencja w odpowiedzi).
  • Zadbaj o świeżość i konflikty źródeł (zasady rozstrzygania).
  • Monitoruj jakość retrieval (trafność, pokrycie, dryft).
  • Zastosuj uprawnienia, redakcję danych i logowanie zapytań.

Najczęstsze pułapki

  • RAG bez cytowań – nie da się audytować, skąd wzięła się teza.
  • Chunking „na oko” – zbyt duże lub zbyt małe fragmenty psują trafność.
  • Brak polityki świeżości – model miesza stare i nowe wersje informacji.
  • Ignorowanie uprawnień – wycieki danych przez zbyt szeroki kontekst.

Artefakty w Luage

context_packet sources:ssot citations_contract retrieval_metrics access_policy

Standard działa dopiero wtedy, gdy ma właściciela, wersję, ślad (trace) oraz test regresyjny.

Szablon do skopiowania

Szkielet „context packet” (źródła + zasady)

context_packet: support.reply@v3
sources:
  - id: kb:refund_policy
    version: 1.7
    cite_as: "[1]"
  - id: kb:pricing
    version: 3.2
    cite_as: "[2]"
rules:
  - "Każde twierdzenie faktograficzne musi mieć cytowanie"
  - "Gdy źródła są sprzeczne → wybierz SSOT i pokaż konflikt"

Źródła i reguły to „kontrakt prawdy” – bez tego rośnie ryzyko halucynacji.

W skrócie
  • Krawędź bez dowodu nie jest używalna w odpowiedzi
  • Dowód = doc@ver + chunk_id + polityka dostępu
  • Claim→ścieżka→dowód to standard audytu
  • Provenance umożliwia regresje i rollback
To jest warunek rzetelności GraphRAG. Bez tego graf nie powinien zasilać odpowiedzi.
Standard dowodowy: jeśli krawędź nie ma provenance, to w praktyce nie wolno jej użyć do odpowiedzi. Graf bez dowodów jest grafem „opowieści”, nie grafem wiedzy.

1. Dlaczego provenance na poziomie krawędzi

W klasycznym RAG dowodem jest cytowany fragment. W GraphRAG dowodem musi być również: dlaczego dana relacja istnieje oraz z jakiego źródła wynika.

  • Bez provenance nie da się wykonać audytu ani regressions po zmianie dokumentów.
  • Bez provenance nie da się ustalić polityk dostępu per relacja.
  • Bez provenance model zaczyna „dorysowywać” relacje z intuicji.

2. Minimalny model danych provenance

Ścieżka dowodowa: węzły, krawędzie i dowody (doc_id@ver, chunk_id)

Minimalna struktura dowodu dla krawędzi:

{
  "edge_id": "E:dep:SYS_A->SYS_B",
  "relation": "depends_on",
  "evidence": [
    {"doc": "POL-17@1.4", "chunk": "c-0291", "quote_hash": "…"},
    {"doc": "RUNBOOK@2.1", "chunk": "c-1044"}
  ],
  "access": {"policy": "internal", "tenant": "ACME"},
  "extracted_by": {"pipeline": "graph/etl", "version": "2026.01"},
  "confidence": 0.87
}

3. Wiązanie dowodów z odpowiedzią (citation binding)

W Luage standardem jest mapowanie claimdowód. Dla GraphRAG oznacza to:

  • claim wskazuje ścieżkę grafową (encje + relacje),
  • każda relacja w ścieżce wskazuje dowody (evidence),
  • dla czytelnika końcowego cytowanie może pozostać „dokumentowe”, ale ślad wewnętrzny musi umieć zejść do krawędzi.

4. Kontrola dostępu

Access control nie może być „po indeksie”. Musi działać na poziomie dowodów, bo to dowody pochodzą z SSOT. Minimalna polityka:

  • jeśli dowód ma politykę „restricted”, krawędź dziedziczy ograniczenie,
  • jeśli krawędź miesza dowody z różnych polityk — obowiązuje bardziej restrykcyjna,
  • jeśli nie da się ustalić polityki — krawędź jest niepublikowana.

5. Audyt i regresje

Provenance umożliwia:

  • ponowne przeliczenie grafu po zmianie źródeł (diff),
  • wyjaśnienie, skąd wzięła się relacja (doc, wersja, fragment),
  • testy regresji dla ścieżek (patrz: Ewaluacja GraphRAG).

6. Wdrożenie: minimum akceptowalne

  • Wszystkie krawędzie mają dowody (lista, nie string).
  • Dowody są wersjonowane (doc@ver) i odnoszą się do chunk_id.
  • Jest audyt: kto, kiedy, jakim pipeline to opublikował.
  • W logach istnieje trace_id, który łączy aktualizację grafu z rejestrem zmian.

7. Powiązane

Na tej stronie
Spis
    Minimum akceptowalne
    • dowody strukturalne (lista), nie „opis tekstowy”
    • wersjonowanie źródeł (doc@ver)
    • trace_id dla publikacji grafu
    • fail‑closed przy braku polityki