Procedura

Cykl życia dokumentów i SSOT

Jeżeli chcesz rzetelnych odpowiedzi, musisz mieć rzetelne źródła. To zaczyna się od SSOT: jednej wersji dokumentu, która jest cytowalna, audytowalna i zarządzana w czasie.

W skrócie
  • SSOT to umowa procesowa: doc_id + wersja, albo nie cytujesz
  • statusy sterują tym, czy wolno indeksować i używać w odpowiedziach
  • reindeksacja i review mają być rytmem, nie gaszeniem pożaru
  • tombstone i log zmian chronią stabilność linków i audyt
Jeśli to ma wejść do procesu, proszę traktować ten rozdział jako standard operacyjny.
SSOT (Single Source of Truth) to nie slogan. To umowa procesowa: jedna wersja dokumentu jest źródłem, do którego wolno cytować, indeksować i z którego wolno uczyć użytkownika.

1. Definicja: co w praktyce jest SSOT

Dokumenty w Compendium i w bazie wiedzy mogą istnieć w wielu kopiach (PDF, wiki, e‑mail, export), ale SSOT musi być jeden: identyfikowany przez doc_id i wersję (vX.Y). Bez wersji nie ma cytowań. Bez cytowań nie ma rzetelności.

2. Statusy: od Draft do Archived

Statusy nie są „dekoracją” w bibliotece. One sterują tym, co wolno robić z treścią (indeksować / cytować / wyświetlać).

Cykl życia dokumentów i SSOT — statusy i wersjonowanie
Reguła dyscypliny: zmiana treści w statusie Published bez podbicia wersji to błąd procesu. Konsekwencja jest prosta: cytowania przestają być stabilne.

3. Wersjonowanie i identyfikacja

  • doc_id — stały identyfikator logiczny dokumentu (niezmienny),
  • version — semantyczna wersja treści (zmienia się przy każdej modyfikacji),
  • hash — kontrola integralności (pomaga w audycie i w cache),
  • index_version — wersja indeksu/embeddingów powiązana z polityką chunkingu.

Minimalny format cytowania wewnętrznego (dla RAG i audytu):

[doc_id:compendium/kontrakt-cytowan-provenance v1.0] — sekcja 3.2, akapit 2

4. Pipeline: od dokumentu do odpowiedzi

Dokument jako plik nie jest jeszcze „wiedzą operacyjną”. Żeby stał się źródłem dla LLM:

  1. określasz status (czy wolno cytować),
  2. przechodzisz przez chunking i metadane,
  3. generujesz embeddingi i budujesz indeks,
  4. ustawiasz politykę świeżości i konfliktów źródeł,
  5. wymuszasz kontrakt cytowań (claim → dowód → cytat).

5. Review i reindeksacja: rytm, nie akcja ratunkowa

Najbardziej profesjonalny system to taki, który ma spokojny rytm przeglądów. Minimalny standard:

  • okresowy review (np. co kwartał) dla treści krytycznych,
  • reindeksacja po zmianie polityki chunkingu lub metadanych,
  • log zmian i „tombstone” przy archiwizacji (żeby linki nie umierały).

6. Checklista właściciela dokumentu

Element Wymóg Po co
doc_id + version obowiązkowe w publikacji stabilne cytowania
Status Published / Deprecated / Archived kontrola użycia w RAG
Metadane owner, review date, sensitivity governance i bezpieczeństwo
Reindeksacja po zmianie treści lub polityki spójność retrieval

7. Powiązane rozdziały

Następny krok

Jeśli budujesz bazę wiedzy, dopnij standard cytowań i provenance.

Przejdź do kontraktu cytowań