Przewodnik

Chunking i indeksowanie w RAG: metadane, wersje i dowodowość

Jak zaprojektować retrieval tak, aby dostarczał właściwe fragmenty w właściwej wersji, z provenance i możliwością cytowania — bez kosztownych uproszczeń.

Chunking to decyzja architektoniczna

W RAG nie wygrywa „największy wektorowy indeks”, tylko dowodowość: czy potrafisz wskazać źródło, wersję, zakres cytowania i spójnie odtworzyć odpowiedź po tygodniu. Chunking jest fundamentem tej powtarzalności.

Strategie chunkingu (zależnie od typu treści)

Strukturalny (nagłówki/sekcje) – najlepszy dla dokumentów technicznych i polityk.
Semantyczny (granice znaczeniowe) – dobry dla poradników, ale trudniejszy w audycie.
Hybrydowy – sekcje + limit tokenów + overlap kontrolowany.

Minimalny zestaw metadanych

doc_id i doc_version (SSOT),
section (np. nagłówek),
span (zakres stron/akapitów),
acl (dostęp: RBAC/ABAC),
source_type (policy, manual, ticket, kb, code).

Praktyka cytowań: użytkownik nie potrzebuje numeru embeddingu. Potrzebuje: „z czego to wynika” – doc@ver + zakres.

Typowe błędy

Chunki bez wersji dokumentu (brak możliwości odtworzenia).
Za duży overlap (duplikaty i błędne rerankowanie).
Brak deduplikacji na poziomie doc_id/span (te same dowody w kółko).
Indeks bez polityk dostępu (wycieki przez retrieval).

Jak to testować

Golden queries: pytania kontrolne dla kluczowych polityk.
Coverage: czy dla danej odpowiedzi istnieją cytowania.
Stability: czy ten sam prompt → te same źródła (w granicach tolerancji).

Rozszerzenie praktyczne

Operacyjny skrót

Ten rozdział należy do rodziny Wiedza i źródła i ma formę Przewodnik. Poniższe dopowiedzenie ma jeden cel: przełożyć treść na działania, które da się wdrożyć, zmierzyć i utrzymać.

Checklista

Ustal SSOT i hierarchię źródeł (co jest kanoniczne, co pomocnicze).
Zaprojektuj retrieval: filtry, hybryda (keyword+semantics), reranking.
Wprowadź cytowania i atrybucję (proweniencja w odpowiedzi).
Zadbaj o świeżość i konflikty źródeł (zasady rozstrzygania).
Monitoruj jakość retrieval (trafność, pokrycie, dryft).
Zastosuj uprawnienia, redakcję danych i logowanie zapytań.

Najczęstsze pułapki

RAG bez cytowań – nie da się audytować, skąd wzięła się teza.
Chunking „na oko” – zbyt duże lub zbyt małe fragmenty psują trafność.
Brak polityki świeżości – model miesza stare i nowe wersje informacji.
Ignorowanie uprawnień – wycieki danych przez zbyt szeroki kontekst.

Artefakty w Luage

context_packet sources:ssot citations_contract retrieval_metrics access_policy

Standard działa dopiero wtedy, gdy ma właściciela, wersję, ślad (trace) oraz test regresyjny.

W tym rozdziale

co RAG ma udowodnić (a nie obiecać)
chunking według struktury
freshness i wersjonowanie
cytowania i provenance
checklist praktyczny

Chunking i indeksowanie w RAG: metadane, wersje i dowodowość

Chunking to decyzja architektoniczna

Strategie chunkingu (zależnie od typu treści)

Minimalny zestaw metadanych

Typowe błędy

Jak to testować

Operacyjny skrót

Checklista

Najczęstsze pułapki

Artefakty w Luage

Problem, który naprawdę rozwiązujemy

Chunking: zasady robocze

Freshness i wersjonowanie

Cytowania i dowodowość

Checklist (skrót)