Procedura

Budżet kosztów i SLO

Jak utrzymać jakość i rzetelność przy kontroli kosztu oraz latencji (p95): pokrętła, progi degradacji, telemetryka i testy regresji. Podejście inżynierskie, nie życzeniowe.

Czas czytania: ~13 min Aktualizacja: 2026-01-09
W skrócie
  • SLO (p95) jako wymóg
  • jawne pokrętła kontroli
  • degradacja kontrolowana + trace

SLO, koszt i kompromisy

System LLM w produkcji ma trzy twarde parametry: jakość, latencję i koszt. Nie da się ich optymalizować jednocześnie bez limitów. Dlatego Luage proponuje podejście budżetowe: ustalamy SLO (np. p95), a potem dobieramy pokrętła, które utrzymują system w granicach.

Budżet kosztów i SLO — pokrętła
Pokrętła kontroli: routing, cache, retrieval K, długość, narzędzia oraz sygnały jakości (gates).

Pokrętła kontroli

Najbardziej praktyczne pokrętła (w kolejności typowego wpływu na p95):

  1. Routing modeli (Fast ↔ High‑quality) + fallback.
  2. Cache (RAG, narzędzia, odpowiedź), z wersjonowaniem.
  3. RAG: K, rerank, filtry.
  4. Wyjście: max tokens, format, zwięzłość.
  5. Narzędzia: timeouts, retry policy, limity.

Budżety i progi

Budżet kosztu i SLO powinien mieć progi, które uruchamiają degradację. Przykład:

  • SLO_OK: p95 < 1.8 s
  • SLO_WARN: 1.8–2.5 s → redukcja K, skrócenie odpowiedzi
  • SLO_FAIL: > 2.5 s → routing na fast model + ograniczenie narzędzi
Degradacja ma być odwracalna i jawna w logach: użytkownik może dostać krótszą odpowiedź, ale nie gorszą rzetelność.

Degradacja kontrolowana

Solidny standard to „stopnie” degradacji, np. 0..3. Każdy stopień:

  • ma warunek wejścia (metryka),
  • ma konkretne zmiany pokręteł,
  • jest logowany (degradation_step),
  • ma test regresji.

Telemetria

Minimum, które powinno trafić do trace:

  • latency p50/p95, timeout rate, error rate
  • input/output tokens, retrieval_k, rerank_on/off
  • cache hit rate (RAG i narzędzia)
  • model_id, policy_version, prompt_hash

Przykładowa polityka

Mini‑symulator: wybierz tryb, a poniżej zobaczysz przykładowe ustawienia pokręteł. To nie jest „magia” — to kontrolowany kompromis.

Tryb
p95 — przykładowe ustawienia
Normalny
  • routing: quality‑first, fallback: fast
  • RAG: K_final 10, rerank: ON
  • output: 500–800 tokenów (z rezerwą)
  • narzędzia: standard timeouts, retry tylko na bezpiecznych operacjach
Degradacja
  • routing: fast‑first, fallback: quality dla high‑impact
  • RAG: K_final 6, rerank: OFF lub ograniczony
  • output: 250–400 tokenów (z zachowaniem cytowań)
  • narzędzia: ogranicz do „read‑only”; reszta → approval/HITL

Checklist

  • Zdefiniuj SLO i powiąż je z progiem degradacji.
  • Wybierz pokrętła i opisz ich wpływ na koszt/latencję.
  • Wprowadź cache z wersjonowaniem i kontrolą świeżości.
  • Loguj metryki i stopień degradacji w trace.
  • Utrzymuj golden set oraz testy regresji po zmianach polityki.

Powiązane

Skrót operacyjny
  1. SLO i koszt to budżet.
  2. Pokrętła są jawne i testowane.
  3. Degradacja nie obniża rzetelności.
Artefakt
Matryca SLO + budżet kosztu + progi degradacji.
Monitoring jakości i drift