Procedura budowy warstwy grafowej: od dokumentów SSOT do encji i relacji z provenance, bramkami jakości i regresjami.
W skrócie
Traktuj ekstrakcję jako hipotezy; publikacja = bramki + dowody
Stabilne ID i deduplikacja to warunek utrzymania grafu
Każda relacja musi mieć provenance (doc@ver, chunk_id)
Regresje i trace to normalny koszt utrzymania
Dla zespołów data/AI: ten rozdział jest praktycznym „runbookiem” do wdrożenia pipeline.
Zasada praktyczna: model nie „ustala faktów” — model generuje hipotezy. Fakt powstaje dopiero wtedy,
gdy hipoteza przejdzie bramki: identyfikację, deduplikację, provenance i reguły dostępu.
1. Cel i definicje
Ten rozdział opisuje procedurę budowy warstwy grafowej dla GraphRAG:
jak przejść od dokumentów SSOT do grafu encji i relacji w sposób audytowalny.
Encja — kanoniczny obiekt w domenie (np. osoba, system, polityka, produkt).
Wzmianka (mention) — fragment tekstu, który może wskazywać encję.
Entity linking — przypisanie wzmianki do konkretnego identyfikatora encji (lub decyzja „nie wiem”).
Relacja — krawędź w grafie (np. depends_on, owned_by, cites).
Provenance — dowód: wskaźnik do źródła (doc_id@version + chunk_id) i reguł dostępu.
2. Pipeline end‑to‑end
Zalecany pipeline (produkcja) ma pięć etapów:
Ingest dokumentów z SSOT (z wersją, statusem i polityką dostępu).