Standard • Bezpieczeństwo i ryzyko

Dane i prywatność

Standard firmowy dla pracy z LLM: klasyfikacja danych, minimalizacja kontekstu, retencja logów, redakcja PII i kontrola dostępu do wiedzy oraz narzędzi.

W skrócie
  • Minimalizacja: do modelu trafia tylko to, co potrzebne do zadania.
  • Klasy danych: PII i sekrety zawsze wymagają redakcji lub bramki.
  • Retencja: logi i prompt‑trace nie mogą stać się „hurtownią danych wrażliwych”.
  • Uprawnienia: dostęp do wiedzy i narzędzi jest częścią prywatności.

Ten rozdział opisuje standard: jakie dane mogą wejść do modelu, jak je redagować, gdzie wolno je logować i jak utrzymać spójność pomiędzy prywatnością, audytem i praktyką operacyjną.

1. Zasady naczelne

  • Celowość: dane są używane wyłącznie do realizacji zdefiniowanego zadania.
  • Minimalizacja: jeśli pole nie jest potrzebne — nie trafia do modelu.
  • Need‑to‑know: retrieval i narzędzia respektują uprawnienia (ACL/RBAC).
  • Rozliczalność: jest ślad (trace), ale bez przechowywania wrażliwych treści „na zapas”.

2. Klasyfikacja danych w kontekście LLM

Klasyfikacja musi być prosta, bo działa w codziennej pracy. Poniżej jest demonstrator polityki — wybór klasy pokazuje minimalne zasady.

Demonstrator klasy danych
Kliknij klasę — zobacz dozwolone działania, retencję i bramki.

3. Retencja, logi i rezydencja

Observability jest potrzebna, ale nie może wymuszać przechowywania treści wrażliwych. Standard firmowy:

  • Logujemy metadane (trace_id, wersje, czasy, decyzje), a treść tylko gdy jest to uzasadnione.
  • Redakcja przed logowaniem: PII/sekrety są maskowane lub hashowane.
  • Retencja jest jawna (np. 30/90 dni) i różna dla środowisk (dev/stage/prod).
  • Rezydencja danych (region) dotyczy również wektorów/embeddingów.

4. Minimalizacja na wejściu (context packet)

„Pakiet kontekstu” powinien mieć warstwy. Do modelu trafiają wyłącznie te warstwy, które są niezbędne dla zadania. Typowy podział:

Warstwy stałe
  • policy + standard językowy
  • glosariusz i terminologia
  • ramy bezpieczeństwa (DLP, no‑answer)
Warstwy zmienne
  • dane zadania (minimum)
  • źródła (SSOT) i cytowania
  • narzędzia + zakresy (scopes)

5. Dostęp do wiedzy i narzędzi

Prywatność w systemie językowym jest w praktyce kontrolą dostępu. Minimalny standard:

  • RAG/GraphRAG filtruje źródła po ACL (tenant, rola, projekt).
  • Tool Gateway wymusza least privilege i waliduje argumenty.
  • Wynik narzędzia jest redagowany przed powrotem do modelu.

6. Checklist standardu

  • Klasyfikacja danych jest obowiązkowa i automatyzowana (tam gdzie możliwe).
  • PII/sekrety: redakcja na wejściu, redakcja na wyjściu, redakcja przed logami.
  • Retencja logów i danych jest jawna; są wyjątki tylko przez rejestr wyjątków.
  • Retrieval i narzędzia respektują uprawnienia i zakresy.
Powiązane
Na tej stronie
Spis
    Status merytoryczny
    Metryka (wersja, owner, terminy przeglądu) jest wypełniana automatycznie na podstawie manifestu.