RAG podnosi rzetelność, ale tylko przy kontrakcie cytowań i bramkach dowodowych.
Jakość to nie „trafność” — to pokrycie, atrybucja i stabilność w czasie.
Bezpieczeństwo: ACL, poisoning, prompt injection przez dokumenty, redakcja danych.
Operacje: reindeks, monitoring, regresje i kontrola kosztu.
RAG nie „ulepsza” modelu — dostarcza mu kontekst i wymusza atrybucję. Cała reszta to inżynieria kontraktu.
1. Definicja: co RAG rozwiązuje (a czego nie)
Retrieval‑Augmented Generation (RAG) to praktyka, w której odpowiedź modelu jest kondycjonowana
przez fragmenty dokumentów pobrane z kontrolowanego korpusu (SSOT). RAG jest sensowne wtedy, gdy:
nie chcemy (lub nie możemy) trenować modelu na danych organizacji.
RAG nie zastępuje jakości źródeł. Jeśli SSOT jest niespójny, przeterminowany albo nie ma kanoniczności,
retrieval będzie jedynie szybciej dostarczać sprzeczne fragmenty.
2. Kiedy RAG ma sens
Najczęstsze przypadki użycia: support, dokumentacja, procedury, compliance, on‑boarding i szkolenia.
Sygnały, że RAG jest właściwym kierunkiem:
pytania użytkowników powtarzają się, ale odpowiedź zależy od wersji dokumentu, produktu lub regionu,
potrzebna jest ścieżka dowodowa („skąd to wynika?”),
koszt błędu jest wysoki (regulacje, finanse, bezpieczeństwo).
3. Minimalna architektura RAG
Minimalny pipeline ma pięć kroków. Każdy z nich ma własne metryki i tryby awarii:
Ingest — pozyskanie i normalizacja dokumentów (format, metadane, ACL).
Index — chunking, embedding, indeks (wektorowy / hybrydowy), wersjonowanie.
Retrieve — wyszukiwanie, filtrowanie po metadanych (np. tenant, region).
Rerank — porządkowanie fragmentów (często kluczowe dla jakości).
Compose — złożenie kontekstu, odpowiedź i cytowania.
Brak kontraktu cytowań zwykle kończy się „ładną odpowiedzią”, której nie da się obronić.
W Compendium cytowania są traktowane jak interfejs — teza musi mieć dowód.
4. Jakość: metryki i test harness
RAG testuje się inaczej niż klasyczne wyszukiwanie. Minimalny zestaw:
Coverage: czy odpowiedź znajduje właściwe źródło?
Attribution: czy cytowanie naprawdę wspiera tezę?
Faithfulness: czy model nie dodaje treści spoza kontekstu?
Stability: czy wynik nie „pływa” po zmianie indeksu lub modelu?
W praktyce nie wystarczy „accuracy”. Potrzebny jest golden set i regresje po każdej zmianie:
chunking, embedding, reranker, prompt, polityka cytowań.
5. Bezpieczeństwo i zgodność
RAG otwiera nowy wektor ataku: dokument staje się częścią kontekstu. Trzeba kontrolować:
ACL: retrieval musi respektować uprawnienia użytkownika/tenantu.
Poisoning: złośliwe treści w korpusie mogą sterować odpowiedzią (prompt injection „w dokumencie”).
PII: redakcja danych i retencja — źródła często mają dane osobowe.
Link rot: jeśli cytowania odwołują się do URL, trzeba mieć kanoniczność i wersje.
6. Operacje: świeżość i monitoring
RAG żyje w czasie. Minimalny standard operacyjny:
reindeks i rollback (indeks@ver),
monitoring driftu jakości i kosztu,
trace dla retrieval (query, filtry, top‑k, źródła),
replay trudnych przypadków (bez danych wrażliwych).