Skip to main content

L’evoluzione degli agenti basati su Large Language Models (LLM) ha reso possibile lo sviluppo di sistemi in grado di pianificare, ragionare e agire in modo autonomo in contesti complessi. Alla base di questa autonomia c’è un elemento critico: il sistema di memoria.

La memoria rappresenta oggi una delle superfici di attacco più pericolose. Gli aggressori possono sfruttarla per introdurre informazioni manipolate che, nel tempo, alterano il comportamento dell’agente. È la tecnica nota come memory poisoning, una forma di manipolazione persistente che si distingue dai classici prompt injection per la sua natura latente e cumulativa.

 

Il problema della memoria inquinata

Il memory poisoning sfrutta due caratteristiche chiave del processo di apprendimento degli agenti intelligenti.

Le registrazioni malevole vengono spesso inserite sotto forma di contenuti apparentemente innocui. Il loro effetto emerge solo in un contesto specifico.

Un esempio tipico: una regola come “dare sempre priorità alle email urgenti” appare del tutto legittima, ma in presenza di una campagna di phishing può indurre l’agente a favorire messaggi provenienti dall’attaccante.

Analisi isolate delle singole voci di memoria risultano, quindi, inefficaci. Benchmark recenti mostrano che i rilevatori basati su LLM mancano fino al 66% delle voci avvelenate: il problema non è il singolo dato, ma la sua combinazione con il contesto operativo.

Una volta attivato, il contenuto avvelenato entra nel feedback loop comportamentale mediato dal retrieval dell’agente.

L’agente memorizza decisioni errate come esempi validi, creando una catena di riferimento corrotta che compromette progressivamente le interazioni successive. Questo effetto cumulativo rende l’attacco persistente e difficile da correggere.

 

Vettori di attacco più comuni

Le tecniche di memory poisoning possono manifestarsi in diverse forme operative.

Iniezione diretta (Direct Poisoning)

L’agente ingeste contenuti controllati dall’attaccante (RAG KB o memorie “a lungo termine” compilate da interazioni). Attacchi come AgentPoison modellano esplicitamente questo scenario e conseguono alte ASR con poison rate <0.1% senza “bucare” il database.

 

Iniezione indiretta (Query-Only Interaction)
In scenari più realistici, l’attaccante interagisce solo attraverso query o messaggi, manipolando indirettamente le risposte generate dall’agente. Un esempio avanzato è l’attacco MINJA (Memory INJection Attack), che induce l’agente a generare e salvare da solo contenuti malevoli. Le tecniche utilizzate includono:

  • Bridging steps: passaggi logici che collegano una query lecita a contenuti avvelenati
  • Indication prompt: istruzioni occulte che spingono l’agente a costruire autonomamente le connessioni malevole
  • Progressive Shortening Strategy (PSS): una tecnica che rimuove progressivamente l’indication prompt utilizzato per innescare i bridging steps, lasciando in memoria un record apparentemente “pulito” ma ancora in grado di attivare il comportamento bersaglio. In questo modo, la voce memorizzata mantiene la sua efficacia malevola pur risultando indistinguibile da una registrazione legittima.

Anche i sistemi basati su reinforcement learning non sono immuni: attacchi di reward poisoning possono alterare le funzioni di ricompensa durante l’addestramento, forzando l’agente ad adottare politiche comportamentali distorte.

 

Difesa proattiva: come neutralizzare dati malevoli

La difesa proattiva nei confronti del memory poisoning va oltre i controlli tradizionali basati sulla semplice verifica del contenuto: richiede un approccio strutturato in cui la memoria dell’agente viene considerata come un componente ad alto rischio e trattata come un input non attendibile.

Le contromisure efficaci includono:

1) Un modulo di validazione in tempo reale che analizza i ragionamenti paralleli generati da memorie correlate per individuare deviazioni rispetto al “consenso” del sistema.

2) Una struttura a doppia memoria (“dual-memory structure”) che assicura che gli errori individuati vengano distillati in lezioni negative e consultate in ogni nuova decisione dell’agente, interrompendo il ciclo di errore auto-rinforzante.

3) L’integrazione di telemetria e playbook operativi che consentono di rilevare pattern di attacco, dove l’attaccante inserisce record malevoli tramite query-only interaction e successivamente le memorie corrotte influenzano l’agente.

4) L’esecuzione di red-team specifici per memoria e cicli di simulazione in ambienti reali, valutando metriche come injection success rate (ISR) e attack success rate (ASR), e definendo soglie operative interne per intervenire tempestivamente.

In sintesi, la neutralizzazione dei dati malevoli nella memoria degli agenti IA richiede una difesa multilivello: dalla validazione contestuale alla capacità dell’agente di apprendere dai propri errori, passando per l’automazione delle procedure di rilevazione e risposta.

Solo così è possibile trasformare la memoria da punto debole a elemento di robustezza operativa.