Chunking i indeksowanie w RAG: metadane, wersje i dowodowość
Jak zaprojektować retrieval tak, aby dostarczał właściwe fragmenty w właściwej wersji, z provenance i możliwością cytowania — bez kosztownych uproszczeń.
Chunking to decyzja architektoniczna
W RAG nie wygrywa „największy wektorowy indeks”, tylko dowodowość: czy potrafisz wskazać źródło, wersję, zakres cytowania i spójnie odtworzyć odpowiedź po tygodniu. Chunking jest fundamentem tej powtarzalności.
Strategie chunkingu (zależnie od typu treści)
- Strukturalny (nagłówki/sekcje) – najlepszy dla dokumentów technicznych i polityk.
- Semantyczny (granice znaczeniowe) – dobry dla poradników, ale trudniejszy w audycie.
- Hybrydowy – sekcje + limit tokenów + overlap kontrolowany.
Minimalny zestaw metadanych
- doc_id i doc_version (SSOT),
- section (np. nagłówek),
- span (zakres stron/akapitów),
- acl (dostęp: RBAC/ABAC),
- source_type (policy, manual, ticket, kb, code).
Typowe błędy
- Chunki bez wersji dokumentu (brak możliwości odtworzenia).
- Za duży overlap (duplikaty i błędne rerankowanie).
- Brak deduplikacji na poziomie doc_id/span (te same dowody w kółko).
- Indeks bez polityk dostępu (wycieki przez retrieval).
Jak to testować
- Golden queries: pytania kontrolne dla kluczowych polityk.
- Coverage: czy dla danej odpowiedzi istnieją cytowania.
- Stability: czy ten sam prompt → te same źródła (w granicach tolerancji).
Operacyjny skrót
Ten rozdział należy do rodziny Wiedza i źródła i ma formę Przewodnik. Poniższe dopowiedzenie ma jeden cel: przełożyć treść na działania, które da się wdrożyć, zmierzyć i utrzymać.
Checklista
- Ustal SSOT i hierarchię źródeł (co jest kanoniczne, co pomocnicze).
- Zaprojektuj retrieval: filtry, hybryda (keyword+semantics), reranking.
- Wprowadź cytowania i atrybucję (proweniencja w odpowiedzi).
- Zadbaj o świeżość i konflikty źródeł (zasady rozstrzygania).
- Monitoruj jakość retrieval (trafność, pokrycie, dryft).
- Zastosuj uprawnienia, redakcję danych i logowanie zapytań.
Najczęstsze pułapki
- RAG bez cytowań – nie da się audytować, skąd wzięła się teza.
- Chunking „na oko” – zbyt duże lub zbyt małe fragmenty psują trafność.
- Brak polityki świeżości – model miesza stare i nowe wersje informacji.
- Ignorowanie uprawnień – wycieki danych przez zbyt szeroki kontekst.
Artefakty w Luage
Standard działa dopiero wtedy, gdy ma właściciela, wersję, ślad (trace) oraz test regresyjny.
- co RAG ma udowodnić (a nie obiecać)
- chunking według struktury
- freshness i wersjonowanie
- cytowania i provenance
- checklist praktyczny