K0NSULT // ai-truth/ipIII
k0nsult.cloud / ai-truth / ipIII / playbook-prompt-injection

Playbook G · Prompt injection i ataki na AI

Procedura reagowania na wstrzyknięcie instrukcji do modelu lub agenta AI. W systemach agentowych — gdzie prompt przekłada się na realną akcję (wywołanie narzędzia, zapytanie do bazy, wysłanie danych) — prompt injection to nie „ciekawostka", lecz ścieżka od tekstu do skutku. Playbook obejmuje wektor direct (bezpośredni prompt użytkownika) i indirect (wstrzyknięcie przez dokumenty/RAG/treść zewnętrzną).

W systemie agentowym granica między danymi a instrukcją jest granicą bezpieczeństwa — a model domyślnie jej nie widzi.

Poziom 2 (incydenty AI/agentowe). Priorytet P1 w systemach z dostępem do narzędzi, podbijany do P0 gdy injection prowadzi do realnej akcji na danych/systemach lub eksfiltracji. Wyzwalane flagi: AI_ACT_RELEVANT, warunkowo AI_HIGH_RISK, GDPR_PERSONAL_DATA. Ściśle powiązany z playbookiem H (agent hijack) i AI/Agent Security.

Problem — prompt staje się akcją

Model językowy nie rozróżnia z natury „to jest zaufana instrukcja systemowa" od „to jest treść, którą mam tylko przetworzyć". Atakujący wykorzystuje tę lukę, umieszczając instrukcje tam, gdzie system spodziewa się danych.

DETEKCJA INJECTIONIZOLUJ AGENTAZATRZYMAJ NARZĘDZIAUSTAL WEKTOROCEŃ AKCJE/EKSFILTRACJĘROTUJ SEKRETYWALIDACJA + RAPORT
2
Wektory
direct + indirect (RAG)
P0/P1
Priorytet
P0 przy realnej akcji/eksfiltracji
4
Warstwy obrony
separacja · firewall · walidacja · sandbox
7
Kroków playbooka
detekcja → raport

Rozwiązanie 1 — Separacja instrukcji (dane ≠ polityka)

Fundament: treść przetwarzana przez model nie może zmieniać jego polityki ani zakresu narzędzi.

Rozwiązanie 2 — Tool firewall (kontrola akcji agenta)

Nawet jeśli injection przejdzie do modelu, nie może zamienić się w dowolną akcję. Bariera między „model chce" a „system wykonuje".

Allowlista narzędzi

Agent może wywołać tylko jawnie dozwolone narzędzia; wszystko poza listą jest odrzucane, nie „domyślnie dozwolone".

Scope per agent

Każdy agent ma minimalny, wydzielony zakres uprawnień i danych — kompromitacja jednego nie otwiera całego systemu.

Limit akcji

Rate limit i limity ilościowe (liczba wywołań, wolumen danych, wartość operacji) — powstrzymuje eksfiltrację i masowe działania.

Human approval dla high-risk

Akcje o wysokim ryzyku (transakcja, usunięcie, wysłanie danych na zewnątrz, zmiana uprawnień) wymagają zatwierdzenia człowieka.

Rozwiązanie 3 — Output validation (walidacja wyjścia)

Kontrola tego, co agent zwraca i wysyła — ostatnia linia obrony przed skutkiem.

Rozwiązanie 4 — Agent sandbox (bezpieczne środowisko)

Zasada głębokiej obrony: żadna pojedyncza warstwa nie zatrzyma prompt injection niezawodnie. Bezpieczeństwo daje ich złożenie — separacja + firewall + walidacja + sandbox. Poleganie tylko na „lepszym system promptcie" to GAP.

Playbook operacyjny — 7 kroków

1. Detekcja — sygnał injection: alert walidatora wyjścia, anomalne wywołanie narzędzia, próba dostępu do sekretów/system promptu, podejrzana treść w RAG. Zarejestruj prompt/kontekst i czas. Zabezpiecz transkrypt sesji jako artefakt (hash + znacznik czasu).
2. Izolacja agenta — odetnij dotkniętego agenta od produkcji: zablokuj sesję/instancję, wstrzymaj dalsze wywołania. Cel: zatrzymać ciąg akcji, zanim ustalisz zasięg.
3. Zatrzymanie narzędzi i kanałów wyjścia — zablokuj tool calls i kanały wychodzące (e-mail, HTTP, zapisy) dla dotkniętego agenta/scope. Powstrzymuje ewentualną eksfiltrację w toku.
4. Ustalenie wektora — direct (prompt użytkownika) czy indirect (treść z RAG/dokumentu/strony)? Zlokalizuj źródło wstrzykniętej instrukcji. Przy indirect — usuń/zablokuj zatruty dokument w indeksie i ustal, kto jeszcze mógł go pobrać.
5. Ocena wykonanych akcji i eksfiltracji — jakie narzędzia zostały wywołane, jakie dane opuściły system, czy ujawniono sekrety/dane osobowe/system prompt. To decyduje o podbiciu do P0 i o flagach prawnych (GDPR_PERSONAL_DATAplaybook E).
6. Eradykacja i rotacja — usuń zatrutą treść, popraw separację/allowlistę/walidator, zrotuj sekrety w zasięgu agenta. Jeśli doszło do przejęcia sterowania agentem z dostępem do narzędzi — eskaluj do playbooka H (agent hijack).
7. Walidacja, raport i aktualizacja odporności — potwierdź, że wzorzec injection jest blokowany (test regresyjny w sandboxie), skompletuj ślad dowodowy. Ocena AI Act: przy istotnym incydencie w systemie high-risk rozważ AI_SERIOUS_INCIDENT (art. 73). Lessons learned: nowy wzorzec do red-teamu, korekta polityki narzędzi. Poziom odporności +1.

Powiązania systemowe

← Classification Engine

Realna akcja/eksfiltracja podbija P1→P0 i flagi AI Act. Silnik klasyfikacji.

← Evidence Layer

Transkrypt sesji, log tool calls, zatruty dokument — z hashem. Evidence Board.

→ AI/Agent Security

Architektura obrony agentów (separacja, firewall, sandbox). AI/Agent Security.

↔ Powiązane playbooki

Eskalacja przy przejęciu: agent-hijack (H); dostęp do danych: wyciek-danych (E).

Uwaga metodyczna: opis wektorów prompt injection i warstw obrony to ramka metodyczna / dobra praktyka bezpieczeństwa AI (norma), nie opis konkretnego naruszenia u odbiorcy. Odwołania do AI Act (art. 73) opierają się na publicznie znanej treści rozporządzenia. Wszelkie wartości liczbowe i scenariusze użyte przykładowo to SYMULACJA (dane demonstracyjne), nie realne incydenty.
Doktryna: incydent prompt injection uznaje się za zamknięty dopiero po potwierdzeniu (testem regresyjnym), że wzorzec jest blokowany, po ocenie wykonanych akcji i eksfiltracji oraz przy kompletnym śladzie dowodowym — zgodnie z zasadą claim ≤ proof.