Przewodnik

Chunking i indeksowanie w RAG: metadane, wersje i dowodowość

Jak zaprojektować retrieval tak, aby dostarczał właściwe fragmenty w właściwej wersji, z provenance i możliwością cytowania — bez kosztownych uproszczeń.


Chunking to decyzja architektoniczna

W RAG nie wygrywa „największy wektorowy indeks”, tylko dowodowość: czy potrafisz wskazać źródło, wersję, zakres cytowania i spójnie odtworzyć odpowiedź po tygodniu. Chunking jest fundamentem tej powtarzalności.

Strategie chunkingu (zależnie od typu treści)

  • Strukturalny (nagłówki/sekcje) – najlepszy dla dokumentów technicznych i polityk.
  • Semantyczny (granice znaczeniowe) – dobry dla poradników, ale trudniejszy w audycie.
  • Hybrydowy – sekcje + limit tokenów + overlap kontrolowany.

Minimalny zestaw metadanych

  • doc_id i doc_version (SSOT),
  • section (np. nagłówek),
  • span (zakres stron/akapitów),
  • acl (dostęp: RBAC/ABAC),
  • source_type (policy, manual, ticket, kb, code).
Praktyka cytowań: użytkownik nie potrzebuje numeru embeddingu. Potrzebuje: „z czego to wynika” – doc@ver + zakres.

Typowe błędy

  • Chunki bez wersji dokumentu (brak możliwości odtworzenia).
  • Za duży overlap (duplikaty i błędne rerankowanie).
  • Brak deduplikacji na poziomie doc_id/span (te same dowody w kółko).
  • Indeks bez polityk dostępu (wycieki przez retrieval).

Jak to testować

  • Golden queries: pytania kontrolne dla kluczowych polityk.
  • Coverage: czy dla danej odpowiedzi istnieją cytowania.
  • Stability: czy ten sam prompt → te same źródła (w granicach tolerancji).
W tym rozdziale
  • co RAG ma udowodnić (a nie obiecać)
  • chunking według struktury
  • freshness i wersjonowanie
  • cytowania i provenance
  • checklist praktyczny

Problem, który naprawdę rozwiązujemy

RAG nie jest „podpięciem PDF do czata”. To system, który ma dostarczyć modelowi właściwe fragmenty właściwych dokumentów w odpowiedniej wersji, z metadanymi i możliwością cytowania. Chunking i indeksowanie są tu elementem krytycznym — błędy na tym etapie kończą się halucynacjami lub niepotrzebnymi odmowami.

Reguła konserwatywna: jeśli nie da się wiarygodnie odzyskać kontekstu (brak źródeł, brak wersji, brak spójności), to lepiej wywołać tryb „unknown” niż produkować odpowiedź bez dowodu.
Rysunek 1. RAG jako łańcuch artefaktów
Dokumenty ID, wersje Chunking nagłówki, overlap Embedding Index Rerank Assembly + citations Odpowiedź (z provenance)

Chunking: zasady robocze

  • Chunkuj według struktury (nagłówki, sekcje), a nie „co N znaków”.
  • Overlapping tylko tam, gdzie sens (definicje, listy) — nie jako domyślny młotek.
  • Metadane są obowiązkowe: doc_id, wersja, sekcja, data aktualizacji, uprawnienia.
  • Granularność dobieraj do typowych pytań, nie do długości dokumentu.

Freshness i wersjonowanie

Jeśli w organizacji dokumenty żyją, to retrieval musi rozumieć wersje. Minimalny standard to: doc_id, version, updated_at, oraz polityka „najpierw najnowsze w obrębie dozwolonego zakresu”.

Cytowania i dowodowość

  • Cytowanie musi wskazać fragment, a nie tylko dokument.
  • W cytowaniu podaj: doc_id, wersja, krótkie excerpt.
  • Jeśli nie ma dowodu dla twierdzenia faktualnego — odpowiedź powinna to jasno powiedzieć.

Checklist (skrót)

  • Chunking oparty o strukturę + metadane + wersje.
  • Index z filtrowaniem uprawnień i wersji.
  • Reranking i limit kontekstu (top‑k, max tokens).
  • Bind cytowań do fragmentów + audyt retrieval.
Powiązane
Na tej stronie
Spis
    Status merytoryczny
    Ten rozdział jest częścią Compendium. Metryka (wersja, owner, terminy przeglądu) jest wypełniana automatycznie na podstawie manifestu.