Standard firmowy dla pracy z LLM: klasyfikacja danych, minimalizacja kontekstu, retencja logów, redakcja PII i kontrola dostępu do wiedzy oraz narzędzi.
Minimalizacja: do modelu trafia tylko to, co potrzebne do zadania.
Klasy danych: PII i sekrety zawsze wymagają redakcji lub bramki.
Retencja: logi i prompt‑trace nie mogą stać się „hurtownią danych wrażliwych”.
Uprawnienia: dostęp do wiedzy i narzędzi jest częścią prywatności.
Ten rozdział opisuje standard: jakie dane mogą wejść do modelu, jak je redagować, gdzie wolno je logować
i jak utrzymać spójność pomiędzy prywatnością, audytem i praktyką operacyjną.
1. Zasady naczelne
Celowość: dane są używane wyłącznie do realizacji zdefiniowanego zadania.
Minimalizacja: jeśli pole nie jest potrzebne — nie trafia do modelu.
Need‑to‑know: retrieval i narzędzia respektują uprawnienia (ACL/RBAC).
Rozliczalność: jest ślad (trace), ale bez przechowywania wrażliwych treści „na zapas”.
2. Klasyfikacja danych w kontekście LLM
Klasyfikacja musi być prosta, bo działa w codziennej pracy. Poniżej jest demonstrator polityki
— wybór klasy pokazuje minimalne zasady.
Demonstrator klasy danych
Kliknij klasę — zobacz dozwolone działania, retencję i bramki.
3. Retencja, logi i rezydencja
Observability jest potrzebna, ale nie może wymuszać przechowywania treści wrażliwych. Standard firmowy:
Logujemy metadane (trace_id, wersje, czasy, decyzje), a treść tylko gdy jest to uzasadnione.
Redakcja przed logowaniem: PII/sekrety są maskowane lub hashowane.
Retencja jest jawna (np. 30/90 dni) i różna dla środowisk (dev/stage/prod).
Rezydencja danych (region) dotyczy również wektorów/embeddingów.
4. Minimalizacja na wejściu (context packet)
„Pakiet kontekstu” powinien mieć warstwy. Do modelu trafiają wyłącznie te warstwy, które są niezbędne
dla zadania. Typowy podział:
Warstwy stałe
policy + standard językowy
glosariusz i terminologia
ramy bezpieczeństwa (DLP, no‑answer)
Warstwy zmienne
dane zadania (minimum)
źródła (SSOT) i cytowania
narzędzia + zakresy (scopes)
5. Dostęp do wiedzy i narzędzi
Prywatność w systemie językowym jest w praktyce kontrolą dostępu. Minimalny standard:
RAG/GraphRAG filtruje źródła po ACL (tenant, rola, projekt).
Tool Gateway wymusza least privilege i waliduje argumenty.
Wynik narzędzia jest redagowany przed powrotem do modelu.
6. Checklist standardu
Klasyfikacja danych jest obowiązkowa i automatyzowana (tam gdzie możliwe).
PII/sekrety: redakcja na wejściu, redakcja na wyjściu, redakcja przed logami.
Retencja logów i danych jest jawna; są wyjątki tylko przez rejestr wyjątków.
Retrieval i narzędzia respektują uprawnienia i zakresy.