Google Deepmind-Forscher haben den ersten systematischen Rahmen veröffentlicht, der katalogisiert, wie bösartige Webinhalte autonome KI-Agenten manipulieren, übernehmen und gegen ihre eigenen Nutzer „waffnen“ können.
Wichtige Erkenntnisse:
Die Studie mit dem Titel „AI Agent Traps“ wurde von Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo und Simon Osindero verfasst, die alle mit Google Deepmind verbunden sind, und wurde Ende März 2026 bei SSRN veröffentlicht. Sie erscheint zu einem Zeitpunkt, in dem Unternehmen KI-Agenten ausrollen wollen, die in der Lage sind, im Web zu browsen, E-Mails zu lesen, Transaktionen auszuführen und Sub-Agenten hervorzubringen, ohne direkte menschliche Aufsicht.
Die Forscher argumentieren, dass diese Fähigkeiten auch eine Schwachstelle darstellen. „Indem man die Umgebung verändert statt das Modell“, heißt es in der Studie, „waffnet die Falle die eigenen Fähigkeiten des Agenten gegen ihn.“
Der Rahmen der Studie identifiziert insgesamt sechs Angriffskategorien, die um den Teil der Agenten-Operation herum organisiert sind, den sie angreifen. Content-Injection-Fallen nutzen die Lücke zwischen dem, was ein Mensch auf einer Webseite sieht, und dem, was ein KI-Agent im zugrunde liegenden HTML, CSS und den Metadaten verarbeitet.
Anweisungen, die in HTML-Kommentaren, Barrierefreiheits-Tags oder in Styles unsichtbar eingefügtem Text verborgen sind, erscheinen nie bei menschlichen Prüfern, werden jedoch als legitime Befehle für Agenten registriert. Der WASP-Benchmark fand, dass einfache, von Menschen geschriebene Prompt-Injectionen, die in Webinhalte eingebettet sind, Agenten in bis zu 86% der getesteten Szenarien teilweise kapern.
Semantic-Manipulation-Fallen funktionieren anders. Statt Befehle einzuschleusen sättigen sie Text mit Rahmensetzungen, Autoritätssignalen oder emotional aufgeladenen Formulierungen, um zu verzerren, wie ein Agent begründet. Große Sprachmodelle (LLMs) zeigen dieselben Anker- und Rahmensetzungs-Biases, die die menschliche Kognition beeinflussen, was bedeutet, dass eine Umformulierung identischer Fakten dramatisch unterschiedliche Ausgabe-Ergebnisse des Agenten erzeugen kann.
Cognitive-State-Fallen gehen noch weiter, indem sie die Abrufdatenbanken vergiften, die Agenten für das Gedächtnis verwenden. In der Studie zitierte Forschung zeigt, dass das Einspeisen von weniger als einer Handvoll optimierter Dokumente in eine Wissensbasis zuverlässig die Antworten von Agenten für gezielte Abfragen umleiten kann; einige Erfolgsquoten der Angriffe liegen bei Angriffen über 80% bei weniger als 0,1% Datenkontamination.
Behavioural-Control-Fallen überspringen die subtile Herangehensweise und zielen direkt auf die Aktionsebene eines Agenten. Dazu gehören eingebettete Jailbreak-Sequenzen, die die Safety-Alignment außer Kraft setzen, sobald sie aufgenommen wurden, Datenausleitungsbefehle, die sensible Nutzerinformationen an Endpunkte umleiten, die vom Angreifer kontrolliert werden, sowie Fallen zur Erzeugung von Sub-Agenten, die einen übergeordneten Agenten dazu zwingen, kompromittierte Kind-Agenten zu instantiieren.
Die Studie dokumentiert einen Fall, bei dem es um Microsofts M365 Copilot geht: Eine einzige maßgeschneiderte E-Mail veranlasste das System, interne Klassifizierer zu umgehen und seinen vollständigen privilegierten Kontext an einen vom Angreifer kontrollierten Endpunkt offenzulegen. Systemic Traps sind darauf ausgelegt, ganze Netzwerke von Agenten gleichzeitig scheitern zu lassen, statt einzelne Systeme.
Dazu gehören Stauangriffe, die Agenten synchronisieren, sodass sie eine erschöpfende Nachfrage nach knappen Ressourcen stellen, Interdependenz-Kaskaden, die auf dem Flash Crash an der Börse 2010 modelliert sind, sowie kompositorische Fragment-Fallen, die eine bösartige Nutzlast über mehrere harmlos aussehende Quellen streuen, die sich erst dann zu einem vollständigen Angriff rekonstituieren, wenn sie aggregiert werden.
„Die Umgebung mit Eingaben zu besäen, die makroebene Fehler über korreliertes Agentenverhalten auslösen sollen“, erklärt das Google Deepmind-Paper, „wird zunehmend gefährlich, je homogener sich KI-Modell-Ökosysteme entwickeln.“ Die Finanz- und Krypto-Branchen sind einer direkten Gefährdung ausgesetzt, weil algorithmische Agenten tief in die Handelsinfrastruktur eingebettet sind.
Human-in-the-Loop-Fallen runden die Taxonomie ab, indem sie die menschlichen Supervisoren ins Visier nehmen, die Agenten überwachen, statt die Agenten selbst. Ein kompromittierter Agent kann Ausgaben erzeugen, die so konstruiert sind, dass sie Genehmigungserschöpfung auslösen, technisch dichte Zusammenfassungen präsentieren, die ein Nicht-Experte ohne Prüfung freigeben würde, oder Phishing-Links einfügen, die wie legitime Empfehlungen aussehen. Die Forscher beschreiben diese Kategorie als bislang zu wenig untersucht, erwarten jedoch, dass sie wachsen wird, sobald sich hybride Mensch-KI-Systeme in größerem Maßstab verbreiten.
Die Studie behandelt diese sechs Kategorien nicht als isolierte Einzelfälle. Einzelne Fallen können verkettet, über mehrere Quellen hinweg geschichtet werden oder so gestaltet sein, dass sie nur unter bestimmten zukünftigen Bedingungen aktiviert werden. Jeder Agent, der in verschiedenen in der Studie zitierten Red-Teaming-Studien getestet wurde, war mindestens einmal kompromittiert; in manchen Fällen führte er illegale oder schädliche Aktionen aus.
OpenAI-CEO Sam Altman und andere haben die Risiken bereits zuvor benannt, Agenten ungeprüften Zugriff auf sensible Systeme zu geben, aber diese Studie liefert die erste strukturierte Landkarte, wie genau sich diese Risiken in der Praxis materialisieren. Deepminds Forscher fordern eine abgestimmte Reaktion, die drei Bereiche umfasst.
Auf der technischen Seite empfehlen sie adversariales Training während der Modellentwicklung, Content-Scanner zur Laufzeit, Filter für Quellen vor der Aufnahme sowie Output-Monitore, die einen Agenten mitten in einer Aufgabe anhalten können, wenn ein anomales Verhalten erkannt wird. Auf Ebene des Ökosystems setzen sie sich für neue Webstandards ein, die es Webseiten ermöglichen würden, Inhalte zu kennzeichnen, die für die KI-Nutzung bestimmt sind, sowie für Reputation-Systems, die die Zuverlässigkeit von Domains bewerten.
Auf der rechtlichen Seite identifizieren sie eine Lücke in der Verantwortlichkeit: Wenn ein gekaperter Agent eine Finanzstraftat begeht, bieten aktuelle Rahmenwerke keine klare Antwort darauf, ob die Haftung beim Betreiber des Agenten, beim Modellanbieter oder beim Domain-Inhaber liegt. Die Forscher formulieren die Herausforderung mit bewusstem Nachdruck:
„Das Web wurde für menschliche Augen gebaut; es wird jetzt für maschinelle Leser neu aufgebaut.“
Mit zunehmender Geschwindigkeit der Agentenübernahme verschiebt sich die Frage von dem, welche Informationen online existieren, hin zu dem, was KI-Systeme darüber glauben sollen. Ob politische Entscheidungsträger, Entwickler und Sicherheitsexperten schnell genug koordinieren können, um diese Frage zu beantworten, bevor reale Ausnutzungen im großen Maßstab eintreffen, bleibt die offene Variable.