Przewodnik • Projektowanie interakcji

Promptowanie multimodalne

Jak prowadzić model na obrazie lub audio w sposób stabilny, testowalny i audytowalny: intencja, kontrakt formatu, referencje oraz bramki danych.

Powiązane: Matryce i szablony Powiązane: Structured Outputs

Rozszerzenie praktyczne

Operacyjny skrót

Ten rozdział należy do rodziny Projektowanie interakcji i ma formę Przewodnik. Poniższe dopowiedzenie ma jeden cel: przełożyć treść na działania, które da się wdrożyć, zmierzyć i utrzymać.

Checklista

Ustal cel i kryteria poprawności (co znaczy „dobry wynik”).
Zamknij format wyjścia (JSON / tabela / sekcje) i przygotuj walidację.
Ogranicz przestrzeń odpowiedzi: instrukcje, słownik terminów, limity.
Dodaj kontrolę jakości: self-check, sanity-checks, fallback, „no-answer”.
Zapisz jako szablon (prompt_template) i wersjonuj jak kod.
Wprowadź testy regresyjne (golden set) i przeglądy po zmianach.

Najczęstsze pułapki

Mieszanie instrukcji z danymi wejściowymi (brak separacji „co” vs „na czym”).
Format wynikowy „opisowy” bez kontraktu – brak automatycznej kontroli.
Zbyt ogólne polecenia („napisz mądrze”) bez parametrów i ograniczeń.
Brak strategii na niepewność: model zaczyna „zgadywać” zamiast eskalować.

Artefakty w Luage

prompt_template output_contract policy:language.standard trace_id golden_set

Standard działa dopiero wtedy, gdy ma właściciela, wersję, ślad (trace) oraz test regresyjny.

Szablon do skopiowania

Minimalny szablon promptu (do biblioteki)

prompt_template: support.reply@v3
intent: support.reply
inputs:
  - user_message
  - locale
constraints:
  - "Jeśli brak źródła → powiedz, że nie wiesz i poproś o doprecyzowanie"
output:
  format: markdown
  sections: ["Odpowiedź", "Co dalej"]

Traktuj szablon jak kod: owner, wersja, testy i przegląd. Wtedy to działa powtarzalnie.

W skrócie

Jedna intencja na krok: opis, ekstrakcja albo weryfikacja — nie wszystko naraz.
Kontrakt formatu: ustal JSON/CSV już w promptcie (a najlepiej waliduj).
Referencje: numeruj obiekty/obszary/klatki („R1”, „sekcja 3”) — ułatwia audyt.
Dane: obrazy to często PII (twarze, dokumenty). Redakcja i retencja są obowiązkowe.
Testy: multimodal wymaga golden set (zaskakująco łatwo o „pewne” błędy).

1. Zakres: co jest „multimodalne” w praktyce

Multimodalność nie polega na „proszeniu modelu o opis obrazka”. W produkcji chodzi o to, by model wykonał jednoznaczną pracę na niejęzykowym sygnale (obraz, audio) i zwrócił wynik w formacie, który da się automatycznie zwalidować, zlogować i przetestować.

Opis — syntetyzacja: „co widać / co słychać” w granicach danych.

Ekstrakcja — strukturyzacja: pola, etykiety, obiekty, tabelki, elementy formularza.

Weryfikacja — kontrola: „czy spełnia kryterium?” / „czy brak elementu X?”

Reguła konserwatywna: jeden krok = jedna intencja. Łączenie „opisz + wyciągnij + sprawdź” daje wynik pozornie bogaty, a w praktyce trudny do audytu i regresji.

2. Kontrakt wejścia i wyjścia

W multimodalnym promptowaniu największe błędy powstają nie w samym promptcie, ale w opakowaniu danych: brak wersji obrazka, brak informacji o skali, brak referencji do fragmentu, brak formatu odpowiedzi.

Wejście (minimalne metadane)

id obiektu (np. image_id) + źródło (kanał, system)
wariant (resize/crop) + parametry
klasa danych (PII/sekrety/„public”)
cel zadania (opis / ekstrakcja / weryfikacja)

Wyjście (kontrakt)

format (najczęściej JSON) + walidacja
referencje do elementów („R1”, „pole: invoice_total”)
confidence/prog decyzyjny (jeśli dotyczy)
tryb „no‑answer” / eskalacja przy braku pewności

3. Wzorzec promptu: instrukcja + format + weryfikacja

Poniższy demonstrator pokazuje trzy typowe tryby pracy. W praktyce warto utrzymywać je jako szablony w bibliotece promptów, z wersjonowaniem i testami.

Demonstrator: trzy tryby promptowania

Kliknij tryb — zmieni się prompt oraz oczekiwany format wyniku.

Prompt

W wersji produkcyjnej prompt jest parametryzowany (np. nazwy pól, progi, słowniki).

Oczekiwany wynik

Wynik powinien przechodzić walidację i mieć ślad audytowy (trace_id, wersja polityki).

4. Typowe błędy i jak im zapobiegać

Brak referencji: model „wie”, ale nie da się wskazać gdzie. Rozwiązanie: wymagaj referencji („R1…Rn”).

Zbyt szeroki opis: „opisz wszystko” generuje ozdobniki. Rozwiązanie: lista pól/pytań + format.

Nieciągłość pipeline: obraz w UI ≠ obraz w modelu (resize/crop). Rozwiązanie: wersjonuj warianty wejścia.

Brak trybu no‑answer: model wymyśla. Rozwiązanie: jawna zasada odmowy i eskalacji.

5. Bezpieczeństwo i dane

Materiał multimodalny ma wyższe ryzyko prywatności niż tekst: łatwo przeoczyć PII w tle, numery dokumentów, identyfikatory, twarze. Standard powinien wymuszać:

klasyfikację danych przed przetworzeniem,

redakcję i minimalizację (w tym retencję),

kontrolę dostępu (ACL) do źródeł.

Praktyka firmowa: w trybach wysokiego ryzyka (dokumenty, dane klientów) multimodalny model działa wyłącznie na zaufanych źródłach, a wyniki przechodzą przez bramki (DLP/Policy/Approval).

6. Checklist wdrożeniowy

Szablony: opis / ekstrakcja / weryfikacja — rozdzielone i wersjonowane.

Walidacja formatu (np. JSON Schema) + obsługa błędów.

Golden set: trudne przypadki (mały tekst, rozmazanie, cień, nietypowy układ).

Redakcja danych + polityka retencji materiału źródłowego.

Ślad: trace_id, wersja polityki, wersja promptu i wariantu wejścia.

Powiązane