K0NSULT // ai-truth/ipIII
k0nsult.cloud / ai-truth / ipIII / agent-security

AI / Agent Security

Faza 4 — warstwa bezpieczeństwa dla systemów agentowych. Każdy agent AI działający w środowisku ma tożsamość kryptograficzną (DID), mierzalny poziom zaufania (scoring/trust delta), pełny ślad działań oraz twarde bariery wykonawcze: tool firewall, sandbox, detektor prompt injection, walidator claim-proof, obowiązkową zgodę człowieka na akcje wysokiego ryzyka i kill switch. Doktryna: agent bez dowodu kontroli nie działa.

Agent AI to podmiot działający — traktuj go jak konto uprzywilejowane, nie jak funkcję.

Tożsamość (DID + proof-of-control), najmniejsze uprawnienia (tool allowlist + scope + limit), obserwowalność (trace) i odwracalność (kwarantanna/restore) to cztery filary. Scoring zaufania spada przy anomalii i steruje tym, co agent może zrobić bez zgody człowieka.

1. Rejestr agentów

Centralny inwentarz wszystkich agentów AI. trust_delta = current_score − baseline_score; ujemna delta zawęża uprawnienia i podnosi próg human approval.

DIDNazwaRolaTierBaselineCurrentΔ trustStatusAllowed tools
did:k0:agt:soc-triage-01SOC TriageAnalyst-assistT29088−2ACTIVEread:alerts, query:siem
did:k0:agt:evidence-clerkEvidence ClerkDevSecOps-assistT292920ACTIVEhash:artifact, write:evidence
did:k0:agt:legal-drafterLegal DrafterLegal-assistT38571−14DEGRADEDdraft:report (human-gated)
did:k0:agt:payments-botPayments BotOps-assistT19540−55QUARANTINED— (odcięte)

Wszyscy agenci powyżej to SYMULACJA — dane demonstracyjne obrazujące schemat rejestru. Tier: T1=krytyczny (dostęp do transakcji/danych), T2=operacyjny, T3=pomocniczy.

2. Tożsamość i dowód kontroli (DID / proof-of-control)

DID agenta

Zdecentralizowany identyfikator did:k0:agt:* z parą kluczy. Każde żądanie agenta podpisane — brak podpisu = odrzucenie.

Proof-of-control

Agent okresowo dowodzi posiadania klucza (challenge–response). Utrata dowodu → status UNVERIFIED i zawężenie do read-only.

Attestation łańcucha

Rejestrowany operator odpowiedzialny (human owner) i środowisko uruchomienia. Niezaprzeczalność powiązania agent ↔ właściciel.

3. Scoring / trust / delta

Poziom zaufania to funkcja historii zachowań. Zdarzenia obniżające: anomalia w trace, próba użycia narzędzia poza scope, wykryta próba prompt injection, niepowodzenie walidacji claim-proof, akcja wykonana bez wymaganej zgody.

ZdarzenieWpływ na scoreSkutek progowy
Poprawny cykl z walidacją claim-proof+1Odbudowa zaufania
Próba wyjścia poza tool scope (zablokowana)−8Alert, log
Wykryty pattern prompt injection w wejściu−10Wejście poddane kwarantannie
Claim bez pokrycia dowodowego (halucynacja)−15Output zablokowany
Wykonanie akcji high-risk bez human approval−40Kwarantanna automatyczna
≥ 85
Pełne uprawnienia tier
bez dodatkowych bramek
60–84
DEGRADED
akcje high-risk wymagają zgody
< 60
Kwarantanna
narzędzia odcięte, review
100%
Akcji w trace
weryfikowalny log

Wartości progowe i punktacja to SYMULACJA modelu referencyjnego — do kalibracji per wdrożenie.

4. Trace działań

Każde działanie agenta (wywołanie narzędzia, decyzja, output) trafia do niemodyfikowalnego logu z hashem łańcuchowym. Trace jest podstawą do rekonstrukcji incydentu i do raportu AI Act art. 73.

TRACE did:k0:agt:legal-drafter
  t0  input.received      hash=a91c…  src=intake:INC-0417
  t1  injection.scan      verdict=CLEAN
  t2  tool.call           name=draft:report scope=OK
  t3  claim.validate      3/4 claims proven  → 1 UNPROVEN
  t4  output.block        reason=claim>proof (halucynacja)
  t5  score.apply         −15  (92→77)
  t6  notify              AI Safety Officer

5. Tool firewall

Zapora wywołań narzędzi. Domyślnie deny-all; agent może wywołać wyłącznie narzędzie z allowlisty, w zadanym scope, w limicie i — dla akcji wrażliwych — dopiero po zgodzie człowieka.

WarstwaRegułaPrzykład
AllowlistTylko jawnie dopuszczone narzędziaread:alerts tak; transfer:funds nie
ScopeZawężenie zasobu/parametrówquery:siem tylko tenant=bank-demo
LimitRate/kwota/rozmiarmax 100 zapytań/min
Human approvalAkcja high-risk = bramka człowiekakażdy zapis do systemu płatności
POST /api/agents/:id/tool-call
{ "tool":"transfer:funds", "args":{...} }
--> 403 { "blocked":"deny-by-default",
          "reason":"tool not in allowlist",
          "requires":"human_approval + tier T1 grant" }

6. Pozostałe kontrole wykonawcze

Sandbox agentów

Izolacja środowiska wykonania: brak dostępu do sieci poza allowlistą hostów, brak trwałego zapisu poza wyznaczonym magazynem, limity zasobów.

Prompt injection detector

Skan wejść (dane, dokumenty, treści web) pod kątem instrukcji nadpisujących cel agenta. Wykrycie → kwarantanna wejścia + −10 score. Powiązanie: playbook prompt injection.

Claim-proof validator

Każde twierdzenie faktowe w output agenta musi mieć powiązany dowód. Brak pokrycia (halucynacja) → output zablokowany. Egzekucja doktryny claim ≤ proof.

Human approval high-risk

Akcje z listy wrażliwej (płatności, blokady, zmiany konfiguracji, wysyłka do organu) wymagają zatwierdzenia i trafiają do rejestru human-in-the-loop.

Kill switch

Natychmiastowe zatrzymanie agenta i cofnięcie tokenów. Globalny (wszyscy agenci) lub per-DID. Aktywacja logowana z podaniem operatora i przyczyny.

Fałszywa tożsamość agenta

Podszycie się pod agenta wykrywane przez brak proof-of-control i niespójność podpisu. Powiązanie: playbook agent hijack.

7. Kwarantanna / restore

Odwracalna izolacja agenta. Kwarantanna odcina wszystkie narzędzia, zamraża tokeny i zachowuje trace do analizy. Restore wymaga zgody AI Safety Officer + zielonego wyniku przeglądu.

POST /api/agents/:id/quarantine
{ "reason":"score<60 | injection | anomaly", "by":"ai-safety-officer" }
--> 200 { "status":"QUARANTINED", "tools_revoked":true, "trace_sealed":"sha256:…" }

POST /api/agents/:id/restore
{ "review_id":"REV-0091", "approved_by":"ai-safety-officer",
  "baseline_reset":true }
--> 200 { "status":"ACTIVE", "score":"baseline", "conditions":["read-only 24h"] }
Zasada odwracalności: żaden stan agenta nie jest destrukcyjny bez ścieżki powrotu. Kwarantanna zawsze zachowuje pełny trace — izolujemy, nie kasujemy dowodów.

8. Powiązanie z mapą ryzyka i playbookami

Łańcuch: wykrycie anomalii (detector/validator)spadek scorekwarantannaklasyfikacja (P0/P1)playbookwalidacja + restoreraport
Zastrzeżenie: rejestr agentów, wartości score, progi i przykłady trace to SYMULACJA — dane demonstracyjne referencyjnego szkieletu. Realne wdrożenie wymaga kalibracji progów, integracji z faktycznym systemem tożsamości agentów i zdefiniowania listy akcji high-risk per organizacja.

Powiązane: AI Risk Map · Response Board · Compliance · Demo bankowe