Procedura

Inkrementalna budowa grafu i wersjonowanie

Procedura utrzymania grafu w czasie: diff, update, reindeksacja, regresje, rejestr zmian i rollback.

Rozszerzenie praktyczne

Operacyjny skrót

Ten rozdział należy do rodziny Wiedza i źródła i ma formę Procedura. Poniższe dopowiedzenie ma jeden cel: przełożyć treść na działania, które da się wdrożyć, zmierzyć i utrzymać.

Checklista

  • Ustal SSOT i hierarchię źródeł (co jest kanoniczne, co pomocnicze).
  • Zaprojektuj retrieval: filtry, hybryda (keyword+semantics), reranking.
  • Wprowadź cytowania i atrybucję (proweniencja w odpowiedzi).
  • Zadbaj o świeżość i konflikty źródeł (zasady rozstrzygania).
  • Monitoruj jakość retrieval (trafność, pokrycie, dryft).
  • Zastosuj uprawnienia, redakcję danych i logowanie zapytań.

Najczęstsze pułapki

  • RAG bez cytowań – nie da się audytować, skąd wzięła się teza.
  • Chunking „na oko” – zbyt duże lub zbyt małe fragmenty psują trafność.
  • Brak polityki świeżości – model miesza stare i nowe wersje informacji.
  • Ignorowanie uprawnień – wycieki danych przez zbyt szeroki kontekst.

Artefakty w Luage

context_packet sources:ssot citations_contract retrieval_metrics access_policy

Standard działa dopiero wtedy, gdy ma właściciela, wersję, ślad (trace) oraz test regresyjny.

Szablon do skopiowania

Szkielet „context packet” (źródła + zasady)

context_packet: support.reply@v3
sources:
  - id: kb:refund_policy
    version: 1.7
    cite_as: "[1]"
  - id: kb:pricing
    version: 3.2
    cite_as: "[2]"
rules:
  - "Każde twierdzenie faktograficzne musi mieć cytowanie"
  - "Gdy źródła są sprzeczne → wybierz SSOT i pokaż konflikt"

Źródła i reguły to „kontrakt prawdy” – bez tego rośnie ryzyko halucynacji.

W skrócie
  • Graf musi być odtwarzalny (reproducibility) i stabilny (ID)
  • Pipeline inkrementalny: diff → update → reindex → regresje
  • Rollback jest elementem bezpieczeństwa, nie luksusem
  • Release notes łączą zmianę z trace
Jeżeli nie potrafisz cofnąć release grafu, to w praktyce nie masz kontroli nad jakością.
Cel operacyjny: graf musi być odtwarzalny. To oznacza: wersjonowane źródła, deterministyczny pipeline i testy regresji.

1. Zasady

  • Reproducibility: ten sam zestaw źródeł + ta sama wersja pipeline = ten sam graf.
  • Stability: identyfikatory są stabilne, merge ma tombstone, a cytowania nie znikają bez śladu.
  • Fail‑closed: brak dowodu / brak polityki dostępu = brak publikacji.

2. Model zdarzeń (co może się zmienić)

Najczęstsze zdarzenia, które powinny uruchamiać aktualizację grafu:

  • nowa wersja dokumentu SSOT (zmiana treści lub statusu),
  • zmiana ontologii (schemat),
  • zmiana reguł polityki dostępu,
  • zmiana konfiguracji ekstrakcji/linkingu (pipeline).

3. Workflow inkrementalny

Cykl: ingest → diff → update graph → reindeksacja → regresje → release notes
  1. Diff: wykryj, co się zmieniło (doc_id@ver, chunk_id, status).
  2. Re‑extract: przelicz kandydatów dla zmienionych fragmentów.
  3. Merge: aktualizuj encje/relacje; usunięcia realizuj przez tombstone, nie przez „ciszę”.
  4. Reindex: przebuduj indeksy zależne (vector + graph traversal cache).
  5. Regresje: golden set, progi, analiza drift.
  6. Release notes: wpis do rejestru zmian + link do trace.

4. Wersjonowanie i rollback

Dla grafu zalecamy wersję „publikacyjną” (np. graph@2026.01.10) oraz możliwość cofnięcia rollout. Rollback nie jest luksusem — jest warunkiem bezpiecznych zmian.

  • Blue/green: dwa indeksy, przełączanie ruchu po przejściu regresji.
  • Canary: część zapytań na nowy graf, z porównaniem metryk.
  • Freeze: przy incydencie blokujemy publikację nowych wersji do czasu diagnozy.

5. Regresje i progi publikacji

Minimalne testy dla GraphRAG to nie tylko „czy odpowiedź brzmi sensownie”. Testujemy:

  • czy ścieżka relacji jest poprawna (path accuracy),
  • czy dowody są kompletne (evidence coverage),
  • czy nie rośnie liczba konfliktów źródeł,
  • czy nie pogarsza się latencja i koszt (budżety).

Szczegóły: Ewaluacja GraphRAG.

6. Monitoring i metryki

  • liczba nowych/zmienionych encji i relacji per release,
  • odsetek relacji bez dowodów (powinien być 0),
  • dystrybucja confidence,
  • latencja planera i traversal,
  • drift: różnica wyników między wersjami grafu.

7. Powiązane

Na tej stronie
Spis
    Wskazówka
    Publikuj graf w trybie blue/green. Canary dopiero wtedy, gdy masz stabilny zestaw regresji.