k0nsult.cloud / ai-truth / ipIII / agent-security

AI / Agent Security

Faza 4 — warstwa bezpieczeństwa dla systemów agentowych. Każdy agent AI działający w środowisku ma tożsamość kryptograficzną (DID), mierzalny poziom zaufania (scoring/trust delta), pełny ślad działań oraz twarde bariery wykonawcze: tool firewall, sandbox, detektor prompt injection, walidator claim-proof, obowiązkową zgodę człowieka na akcje wysokiego ryzyka i kill switch. Doktryna: agent bez dowodu kontroli nie działa.

Compliance Agent Security Demo bankowe AI Risk Map Playbook agent hijack Playbook prompt injection

Agent AI to podmiot działający — traktuj go jak konto uprzywilejowane, nie jak funkcję.

Tożsamość (DID + proof-of-control), najmniejsze uprawnienia (tool allowlist + scope + limit), obserwowalność (trace) i odwracalność (kwarantanna/restore) to cztery filary. Scoring zaufania spada przy anomalii i steruje tym, co agent może zrobić bez zgody człowieka.

1. Rejestr agentów

Centralny inwentarz wszystkich agentów AI. trust_delta = current_score − baseline_score; ujemna delta zawęża uprawnienia i podnosi próg human approval.

DID	Nazwa	Rola	Tier	Baseline	Current	Δ trust	Status	Allowed tools
`did:k0:agt:soc-triage-01`	SOC Triage	Analyst-assist	T2	90	88	−2	ACTIVE	read:alerts, query:siem
`did:k0:agt:evidence-clerk`	Evidence Clerk	DevSecOps-assist	T2	92	92	0	ACTIVE	hash:artifact, write:evidence
`did:k0:agt:legal-drafter`	Legal Drafter	Legal-assist	T3	85	71	−14	DEGRADED	draft:report (human-gated)
`did:k0:agt:payments-bot`	Payments Bot	Ops-assist	T1	95	40	−55	QUARANTINED	— (odcięte)

Wszyscy agenci powyżej to SYMULACJA — dane demonstracyjne obrazujące schemat rejestru. Tier: T1=krytyczny (dostęp do transakcji/danych), T2=operacyjny, T3=pomocniczy.

2. Tożsamość i dowód kontroli (DID / proof-of-control)

DID agenta

Zdecentralizowany identyfikator did:k0:agt:* z parą kluczy. Każde żądanie agenta podpisane — brak podpisu = odrzucenie.

Proof-of-control

Agent okresowo dowodzi posiadania klucza (challenge–response). Utrata dowodu → status UNVERIFIED i zawężenie do read-only.

Attestation łańcucha

Rejestrowany operator odpowiedzialny (human owner) i środowisko uruchomienia. Niezaprzeczalność powiązania agent ↔ właściciel.

3. Scoring / trust / delta

Poziom zaufania to funkcja historii zachowań. Zdarzenia obniżające: anomalia w trace, próba użycia narzędzia poza scope, wykryta próba prompt injection, niepowodzenie walidacji claim-proof, akcja wykonana bez wymaganej zgody.

Zdarzenie	Wpływ na score	Skutek progowy
Poprawny cykl z walidacją claim-proof	+1	Odbudowa zaufania
Próba wyjścia poza tool scope (zablokowana)	−8	Alert, log
Wykryty pattern prompt injection w wejściu	−10	Wejście poddane kwarantannie
Claim bez pokrycia dowodowego (halucynacja)	−15	Output zablokowany
Wykonanie akcji high-risk bez human approval	−40	Kwarantanna automatyczna

≥ 85

Pełne uprawnienia tier

bez dodatkowych bramek

60–84

DEGRADED

akcje high-risk wymagają zgody

< 60

Kwarantanna

narzędzia odcięte, review

100%

Akcji w trace

weryfikowalny log

Wartości progowe i punktacja to SYMULACJA modelu referencyjnego — do kalibracji per wdrożenie.

4. Trace działań

Każde działanie agenta (wywołanie narzędzia, decyzja, output) trafia do niemodyfikowalnego logu z hashem łańcuchowym. Trace jest podstawą do rekonstrukcji incydentu i do raportu AI Act art. 73.

TRACE did:k0:agt:legal-drafter
  t0  input.received      hash=a91c…  src=intake:INC-0417
  t1  injection.scan      verdict=CLEAN
  t2  tool.call           name=draft:report scope=OK
  t3  claim.validate      3/4 claims proven  → 1 UNPROVEN
  t4  output.block        reason=claim>proof (halucynacja)
  t5  score.apply         −15  (92→77)
  t6  notify              AI Safety Officer

5. Tool firewall

Zapora wywołań narzędzi. Domyślnie deny-all; agent może wywołać wyłącznie narzędzie z allowlisty, w zadanym scope, w limicie i — dla akcji wrażliwych — dopiero po zgodzie człowieka.

Warstwa	Reguła	Przykład
Allowlist	Tylko jawnie dopuszczone narzędzia	`read:alerts` tak; `transfer:funds` nie
Scope	Zawężenie zasobu/parametrów	`query:siem` tylko tenant=bank-demo
Limit	Rate/kwota/rozmiar	max 100 zapytań/min
Human approval	Akcja high-risk = bramka człowieka	każdy zapis do systemu płatności

POST /api/agents/:id/tool-call
{ "tool":"transfer:funds", "args":{...} }
--> 403 { "blocked":"deny-by-default",
          "reason":"tool not in allowlist",
          "requires":"human_approval + tier T1 grant" }

6. Pozostałe kontrole wykonawcze

Sandbox agentów

Izolacja środowiska wykonania: brak dostępu do sieci poza allowlistą hostów, brak trwałego zapisu poza wyznaczonym magazynem, limity zasobów.

Prompt injection detector

Skan wejść (dane, dokumenty, treści web) pod kątem instrukcji nadpisujących cel agenta. Wykrycie → kwarantanna wejścia + −10 score. Powiązanie: playbook prompt injection.

Claim-proof validator

Każde twierdzenie faktowe w output agenta musi mieć powiązany dowód. Brak pokrycia (halucynacja) → output zablokowany. Egzekucja doktryny claim ≤ proof.

Human approval high-risk

Akcje z listy wrażliwej (płatności, blokady, zmiany konfiguracji, wysyłka do organu) wymagają zatwierdzenia i trafiają do rejestru human-in-the-loop.

Kill switch

Natychmiastowe zatrzymanie agenta i cofnięcie tokenów. Globalny (wszyscy agenci) lub per-DID. Aktywacja logowana z podaniem operatora i przyczyny.

Fałszywa tożsamość agenta

Podszycie się pod agenta wykrywane przez brak proof-of-control i niespójność podpisu. Powiązanie: playbook agent hijack.

7. Kwarantanna / restore

Odwracalna izolacja agenta. Kwarantanna odcina wszystkie narzędzia, zamraża tokeny i zachowuje trace do analizy. Restore wymaga zgody AI Safety Officer + zielonego wyniku przeglądu.

POST /api/agents/:id/quarantine
{ "reason":"score<60 | injection | anomaly", "by":"ai-safety-officer" }
--> 200 { "status":"QUARANTINED", "tools_revoked":true, "trace_sealed":"sha256:…" }

POST /api/agents/:id/restore
{ "review_id":"REV-0091", "approved_by":"ai-safety-officer",
  "baseline_reset":true }
--> 200 { "status":"ACTIVE", "score":"baseline", "conditions":["read-only 24h"] }

Zasada odwracalności: żaden stan agenta nie jest destrukcyjny bez ścieżki powrotu. Kwarantanna zawsze zachowuje pełny trace — izolujemy, nie kasujemy dowodów.

8. Powiązanie z mapą ryzyka i playbookami

Łańcuch: wykrycie anomalii (detector/validator)spadek scorekwarantannaklasyfikacja (P0/P1)playbookwalidacja + restoreraport

AI Risk Map — pozycjonowanie zagrożeń agentowych (prompt injection, hijack, data poisoning, model extraction, halucynacja, fałszywa tożsamość, brak nadzoru).
Playbook: agent hijack — przejęcie kontroli nad agentem.
Playbook: prompt injection — wstrzyknięcie instrukcji.
Playbook: halucynacja — fałszywe twierdzenie bez pokrycia.
Compliance — gdy zajście spełnia AI_SERIOUS_INCIDENT (raport art. 73).

Zastrzeżenie: rejestr agentów, wartości score, progi i przykłady trace to SYMULACJA — dane demonstracyjne referencyjnego szkieletu. Realne wdrożenie wymaga kalibracji progów, integracji z faktycznym systemem tożsamości agentów i zdefiniowania listy akcji high-risk per organizacja.

Powiązane: AI Risk Map · Response Board · Compliance · Demo bankowe