Chunking i indeksowanie w RAG: metadane, wersje i dowodowość
Jak zaprojektować retrieval tak, aby dostarczał właściwe fragmenty w właściwej wersji, z provenance i możliwością cytowania — bez kosztownych uproszczeń.
Chunking to decyzja architektoniczna
W RAG nie wygrywa „największy wektorowy indeks”, tylko dowodowość: czy potrafisz wskazać źródło, wersję, zakres cytowania i spójnie odtworzyć odpowiedź po tygodniu. Chunking jest fundamentem tej powtarzalności.
Strategie chunkingu (zależnie od typu treści)
- Strukturalny (nagłówki/sekcje) – najlepszy dla dokumentów technicznych i polityk.
- Semantyczny (granice znaczeniowe) – dobry dla poradników, ale trudniejszy w audycie.
- Hybrydowy – sekcje + limit tokenów + overlap kontrolowany.
Minimalny zestaw metadanych
- doc_id i doc_version (SSOT),
- section (np. nagłówek),
- span (zakres stron/akapitów),
- acl (dostęp: RBAC/ABAC),
- source_type (policy, manual, ticket, kb, code).
Typowe błędy
- Chunki bez wersji dokumentu (brak możliwości odtworzenia).
- Za duży overlap (duplikaty i błędne rerankowanie).
- Brak deduplikacji na poziomie doc_id/span (te same dowody w kółko).
- Indeks bez polityk dostępu (wycieki przez retrieval).
Jak to testować
- Golden queries: pytania kontrolne dla kluczowych polityk.
- Coverage: czy dla danej odpowiedzi istnieją cytowania.
- Stability: czy ten sam prompt → te same źródła (w granicach tolerancji).
- co RAG ma udowodnić (a nie obiecać)
- chunking według struktury
- freshness i wersjonowanie
- cytowania i provenance
- checklist praktyczny