Jak utrzymać jakość i rzetelność przy kontroli kosztu oraz latencji (p95): pokrętła, progi degradacji, telemetryka i testy regresji. Podejście inżynierskie, nie życzeniowe.
Czas czytania: ~13 minAktualizacja: 2026-01-09
W skrócie
SLO (p95) jako wymóg
jawne pokrętła kontroli
degradacja kontrolowana + trace
SLO, koszt i kompromisy
System LLM w produkcji ma trzy twarde parametry: jakość, latencję i koszt.
Nie da się ich optymalizować jednocześnie bez limitów. Dlatego Luage proponuje podejście budżetowe:
ustalamy SLO (np. p95), a potem dobieramy pokrętła, które utrzymują system w granicach.
Pokrętła kontroli: routing, cache, retrieval K, długość, narzędzia oraz sygnały jakości (gates).
Pokrętła kontroli
Najbardziej praktyczne pokrętła (w kolejności typowego wpływu na p95):
Routing modeli (Fast ↔ High‑quality) + fallback.
Cache (RAG, narzędzia, odpowiedź), z wersjonowaniem.
RAG: K, rerank, filtry.
Wyjście: max tokens, format, zwięzłość.
Narzędzia: timeouts, retry policy, limity.
Budżety i progi
Budżet kosztu i SLO powinien mieć progi, które uruchamiają degradację. Przykład:
SLO_OK: p95 < 1.8 s
SLO_WARN: 1.8–2.5 s → redukcja K, skrócenie odpowiedzi
SLO_FAIL: > 2.5 s → routing na fast model + ograniczenie narzędzi
Degradacja ma być odwracalna i jawna w logach: użytkownik może dostać krótszą odpowiedź, ale nie gorszą rzetelność.
Degradacja kontrolowana
Solidny standard to „stopnie” degradacji, np. 0..3. Każdy stopień:
ma warunek wejścia (metryka),
ma konkretne zmiany pokręteł,
jest logowany (degradation_step),
ma test regresji.
Telemetria
Minimum, które powinno trafić do trace:
latency p50/p95, timeout rate, error rate
input/output tokens, retrieval_k, rerank_on/off
cache hit rate (RAG i narzędzia)
model_id, policy_version, prompt_hash
Przykładowa polityka
Mini‑symulator: wybierz tryb, a poniżej zobaczysz przykładowe ustawienia pokręteł. To nie jest „magia” — to kontrolowany kompromis.
Tryb
p95— przykładowe ustawienia
Normalny
routing: quality‑first, fallback: fast
RAG: K_final 10, rerank: ON
output: 500–800 tokenów (z rezerwą)
narzędzia: standard timeouts, retry tylko na bezpiecznych operacjach
Degradacja
routing: fast‑first, fallback: quality dla high‑impact
RAG: K_final 6, rerank: OFF lub ograniczony
output: 250–400 tokenów (z zachowaniem cytowań)
narzędzia: ogranicz do „read‑only”; reszta → approval/HITL
Checklist
Zdefiniuj SLO i powiąż je z progiem degradacji.
Wybierz pokrętła i opisz ich wpływ na koszt/latencję.
Wprowadź cache z wersjonowaniem i kontrolą świeżości.
Loguj metryki i stopień degradacji w trace.
Utrzymuj golden set oraz testy regresji po zmianach polityki.