Procedura

Entity linking i ekstrakcja relacji

Procedura budowy warstwy grafowej: od dokumentów SSOT do encji i relacji z provenance, bramkami jakości i regresjami.

W skrócie
  • Traktuj ekstrakcję jako hipotezy; publikacja = bramki + dowody
  • Stabilne ID i deduplikacja to warunek utrzymania grafu
  • Każda relacja musi mieć provenance (doc@ver, chunk_id)
  • Regresje i trace to normalny koszt utrzymania
Dla zespołów data/AI: ten rozdział jest praktycznym „runbookiem” do wdrożenia pipeline.
Zasada praktyczna: model nie „ustala faktów” — model generuje hipotezy. Fakt powstaje dopiero wtedy, gdy hipoteza przejdzie bramki: identyfikację, deduplikację, provenance i reguły dostępu.

1. Cel i definicje

Ten rozdział opisuje procedurę budowy warstwy grafowej dla GraphRAG: jak przejść od dokumentów SSOT do grafu encji i relacji w sposób audytowalny.

  • Encja — kanoniczny obiekt w domenie (np. osoba, system, polityka, produkt).
  • Wzmianka (mention) — fragment tekstu, który może wskazywać encję.
  • Entity linking — przypisanie wzmianki do konkretnego identyfikatora encji (lub decyzja „nie wiem”).
  • Relacja — krawędź w grafie (np. depends_on, owned_by, cites).
  • Provenance — dowód: wskaźnik do źródła (doc_id@version + chunk_id) i reguł dostępu.

2. Pipeline end‑to‑end

Pipeline: dokumenty → ekstrakcja → normalizacja → linking → graf z provenance

Zalecany pipeline (produkcja) ma pięć etapów:

  1. Ingest dokumentów z SSOT (z wersją, statusem i polityką dostępu).
  2. Ekstrakcja (NER + relacje) — generacja kandydatów (encje, relacje, atrybuty).
  3. Normalizacja — standaryzacja form (aliasy, warianty nazw, typy encji).
  4. Linking — przypisanie do kanonicznych ID, rozstrzygnięcie konfliktów, decyzje „unknown”.
  5. Publikacja — zapis grafu z provenance, testy regresji, wpis do rejestru zmian.
Nie skracaj: jeśli nie masz wersjonowania źródeł i provenance, graf staje się „wiedzą modelu”. To jest sprzeczne z celem Compendium.

3. Identyfikatory i kanoniczność (SSOT)

Dwa najczęstsze błędy w grafach wiedzy to: (1) brak stabilnych ID oraz (2) brak polityki deduplikacji. W praktyce zalecamy:

  • canonical_id — stabilny identyfikator encji (nie zależny od nazwy).
  • aliasy — lista form, które mogą wskazywać encję (ze źródłami i datą).
  • regułę kanoniczności — co wygrywa w konflikcie (SSOT, ważność, data, owner).
Decyzja Wejście Wymagany dowód Rezultat
link wzmianka → encja co najmniej 1 źródło SSOT + zgodność typu edge/node z provenance
merge dwie encje reguła deduplikacji + wpis w rejestrze zmian tombstone + redirect
unknown niska pewność brak bez publikacji do grafu

4. Bramki jakości

Jakość grafu kontroluje się bramkami, a nie „średnią jakością modelu”. Minimalny zestaw bramek:

  • Schema gate: typy encji/relacji zgodne z ontologią, brak pól „z kapelusza”.
  • Evidence gate: każda krawędź ma co najmniej jeden dowód (doc_id@ver, chunk_id).
  • Access gate: dowód ma przypisaną politykę dostępu; brak polityki = blokada.
  • Confidence gate: publikujemy tylko powyżej progu lub po zatwierdzeniu (HITL).
Wariant praktyczny: dla relacji krytycznych (compliance, finanse, medycyna) stosować tryb REQUIRE APPROVAL (HITL), a nie obniżać progi jakości.

5. Operacje i utrzymanie

Utrzymanie grafu to normalna inżynieria danych: monitoring, drift, regresje, kontrola zmian. Zalecane elementy operacyjne:

  • Tryb inkrementalny: przetwarzamy tylko zmienione dokumenty (diff) + backfill zależności.
  • Regresje: golden set pytań relacyjnych (patrz: Ewaluacja RAG).
  • Audyt: trace_id dla partii ingest + powiązanie z rejestrem zmian.
  • Wyjątki: jawna lista odstępstw i ich termin ważności.

6. Artefakty wdrożeniowe

  • Ontologia (typy encji/relacji, wersja, właściciel) — patrz: Ontologia i schemat grafu.
  • Kontrakt provenance — patrz: Proweniencja krawędzi.
  • Test pack (golden) + progi publikacji.
  • Rejestr zmian dla aktualizacji grafu (co, dlaczego, jaki wpływ).

7. Powiązane

Na tej stronie
Spis
    Artefakty
    • ontologia (typy + constraints)
    • kontrakt provenance
    • golden set pytań relacyjnych
    • rejestr zmian grafu