KI-Agenten im Fadenkreuz: Warum die nächste Cybersicherheitskrise von der KI selbst ausgeht.

Christina Pletowski
vor 3 Tagen
6 Min. Lesezeit

Illustration of central AI agent. — Darstellung eines zentralen KI-Agenten, umgeben von eingehenden Angriffspaketen (orange, „bösartig“) und legitimen Datenströmen (grün, „Daten“), während sich ein gestrichelter orangefarbener Bedrohungsbereich nähert. Die Darstellung wurde mit Claude (Anthropic) erstellt.

Sie surfen im Internet, schreiben Code, verwalten E-Mails und buchen Reisen. KI-Agenten werden immer leistungsfähiger. Doch je mehr sie können, desto gefährlicher werden sie.

Stellen Sie sich vor, Sie stellen einen digitalen Assistenten ein, der Ihre E-Mails verwaltet. Er liest Nachrichten, beantwortet Anfragen, koordiniert Termine – alles automatisch. Klingt praktisch? Das ist es auch. Bis eine einzige böswillig gestaltete E-Mail den Assistenten dazu verleitet, alle Ihre Kontakte zu kontaktieren, Dateien zu löschen oder Ihre Zugangsdaten an Fremde weiterzuleiten. Ohne dass Sie es bemerken und ohne dass Sie etwas tun.

Dieses Szenario ist kein Gedankenexperiment mehr. Es ist die Realität agentischer KI-Systeme und wesentlich gefährlicher, als den meisten Menschen bewusst ist.

Eine neue Studie von Forschern der UC Berkeley, der University of Illinois und der UC Santa Barbara präsentiert die erste umfassende Sicherheitsanalyse dieser Systeme. [1] Die Ergebnisse sind alarmierend.

Was genau ist ein KI-Agent eigentlich?

Bevor wir in die Tiefe eintauchen, zunächst ein kurzer Rückblick: Was unterscheidet einen KI-Agenten von einem gewöhnlichen Chatbot?

Ein klassisches Sprachmodell, zum Beispiel ein einfacher Chatbot, nimmt Text als Eingabe entgegen und gibt Text als Ausgabe zurück. Das ist alles. Ein KI-Agent ist in eine komplexe Infrastruktur eingebettet: Er kann Websites besuchen, Dateien lesen und schreiben, Code ausführen, APIs aufrufen, E-Mails versenden und sogar andere KI-Agenten koordinieren. Er verfügt über Gedächtnis, Werkzeuge und Entscheidungsautonomie. [2]

Diese Fähigkeiten machen Agenten enorm nützlich. Programmierassistenten wie GitHub Copilot oder OpenAI Codex schreiben selbstständig Code. Web-Agenten navigieren in Browsern und füllen Formulare aus. Perplexity Comet surft im Auftrag des Nutzers im Internet. Diese Systeme sind keine Zukunftsvision mehr, sie sind bereits im Einsatz.

Das Kernproblem: Flexibilität und Sicherheit im Konflikt

Die Forscher stellen einen grundlegenden Widerspruch fest: Je leistungsfähiger und flexibler ein KI-Agent ist, desto größer ist seine Angriffsfläche.

Konkret analysieren sie sieben Design-Dimensionen, in denen sich die Agenten unterscheiden. In jeder dieser Dimensionen gilt dieselbe Regel: Mehr Flexibilität bedeutet mehr Risiko.

Ein einfacher Chatbot ohne Tools und ohne Internetzugang hat eine überschaubare Angriffsfläche. Ein vollständig autonomer Agent, der E-Mails liest, Websites besucht, Code ausführt und sich mit externen Diensten verbindet? Das ist eine wandelnde Angriffsfläche.

Die gefährlichste Waffe: Prompt-Injection

Falls Sie noch nie von Prompt-Injection gehört haben, wird sich das bald ändern. Es handelt sich um die vorherrschende Angriffsmethode gegen KI-Agenten, und ihr Grundprinzip ist erschreckend einfach.

Direkte Prompt-Injection bedeutet, dass ein Angreifer dem Agenten böswillige Anweisungen direkt zuführt, versteckt in einer scheinbar harmlosen Benutzereingabe.

Indirekte Prompt-Injection ist subtiler und gefährlicher: Der Angreifer platziert bösartige Anweisungen in der Umgebung des Agenten, zum Beispiel auf einer Website, in einem Dokument oder in einer E-Mail. Wenn der Agent diesen Inhalt abruft und verarbeitet, führt er unwissentlich die Befehle des Angreifers aus.

Es gibt bereits Beispiele aus der Praxis: Angreifer haben private Daten über manipulierte GitHub-Repositorys abgezogen. Speziell gestaltete Webseiten haben Web-Agenten dazu verleitet, auf die Bankkonten von Nutzern zuzugreifen. Der sogenannte EchoLeak-Angriff nutzte ein mit einer Falle versehenes Dokument in Microsoft 365 Copilot, um sensible Daten unbemerkt an einen externen Server zu übertragen, ohne dass eine Interaktion des Nutzers erforderlich war. [3]

Flowchart illustrating data breach. AI Agent receives commands from webpage and email with hidden instructions, executes task unnoticed. — Illustration of how direct prompt injection works. Illustration created with Claude (Anthropic).

Sieben Arten, wie KI-Agenten versagen können

Die Studie unterteilt Sicherheitsrisiken in sieben Kategorien, und besonders beunruhigend ist, wie sich diese in einer Kettenreaktion gegenseitig verstärken.

Heterogene, nicht vertrauenswürdige Schnittstellen sind der Ausgangspunkt aller Probleme. Agenten interagieren mit Websites, Datenbanken, externen Diensten und anderen Agenten. Jede Schnittstelle ist ein potenzieller Einstiegspunkt.

Eine falsche Befehlsausführung tritt auf, wenn der Agent böswillige Eingaben aus der Umgebung als legitime Befehle behandelt – eine direkte Folge von Injektionsangriffen.

Der uneingeschränkte Datenfluss beschreibt, wie Informationen frei zwischen Ein- und Ausgängen zirkulieren, ohne die Sicherheitsvorkehrungen, die klassische Software durch Typsysteme und Zugriffskontrollen erzwingt. Daten, die intern bleiben sollten, landen plötzlich in einer URL und gelangen unbemerkt nach außen.

Halluzinationen mit realen Konsequenzen sind bei klassischen Chatbots ärgerlich, bei Agenten jedoch gefährlich. Wenn ein Agent einen nicht existierenden Bibliotheksnamen halluziniert und versucht, diesen zu installieren, kann ein Angreifer, der genau diesen Namen registriert hat, bösartigen Code in das System einschleusen.

Ein Verlust privater Daten tritt auf, wenn sensible Informationen wie Passwörter, personenbezogene Daten oder Unternehmensgeheimnisse durch manipulierte Agenten nach außen gelangen.

Unbeabsichtigte und unbefugte Aktionen reichen von versehentlichen Käufen bis hin zu gelöschten Dateien und beschädigten Datenbanken.

Ressourcenverbrauch und Denial-of-Service-Angriffe: Angreifer können Agenten in Endlosschleifen treiben, ressourcenintensive API-Aufrufe auslösen und Systeme wirtschaftlich oder technisch lahmlegen.

Echte Schwachstellen: Der Fall AutoGPT

Die Analyse wird besonders anschaulich, wenn man AutoGPT betrachtet, einen der beliebtesten Open-Source-Agenten. Die Forscher dokumentieren mehrere echte CVE-Schwachstellen aus den Jahren 2023 und 2024.

Eine davon: Durch manipulierte Webinhalte konnten Angreifer den Agenten dazu bringen, die zentrale Konfigurationsdatei des Systems zu überschreiben. Beim nächsten Neustart des Systems wurde dann bösartiger Code ausgeführt, der vollständige Kontrolle über den Host-Rechner gewährte.

Eine weitere Schwachstelle ermöglichte Path-Traversal-Angriffe, bei denen der Agent Dateien außerhalb seines vorgesehenen Arbeitsverzeichnisses manipulierte. Eine weitere nutzte ANSI-Escape-Sequenzen in Webinhalten aus, um die Konsolenausgabe des Agenten zu manipulieren und den menschlichen Bediener zu täuschen.

Das Muster ist in jedem Fall dasselbe: Die Patches beheben die Symptome, nicht die Ursachen. Indirekte Prompt-Injektion und unkontrollierter Datenfluss bleiben als grundlegende, ungelöste Probleme bestehen.

Dies ist ein Governance-Problem, nicht nur ein technisches

Die Studie stellt die zentrale Spannung als technisches Problem dar. Da wir es meiner Meinung nach mit einem Prinzipal-Agent-Problem zu tun haben, lautet die eigentliche Frage: Wer haftet, wenn ein KI-Agent Schaden verursacht? Der Nutzer? Der Entwickler? Der Modellanbieter? Solange die Haftung rechtlich nicht geklärt ist, werden keine noch so umfangreichen Sicherheitsvorkehrungen ausreichen, da es keinen systemischen Anreiz gibt, die Sicherheit richtig zu gestalten. Die Datenschutz-Grundverordnung (DSGVO) hat mehr für den Datenschutz bewirkt als ein Jahrzehnt voller Leitfäden für bewährte Verfahren. Wir brauchen wahrscheinlich ein Äquivalent für agentische KI.

Aber: Ist agentische KI dabei, Datenschutzgesetze zu brechen?

Die DSGVO basiert auf einem einfachen Denkmodell: Ein Unternehmen sammelt Ihre Daten, speichert sie in einer Datenbank und Sie haben Rechte daran. Sie geht von einem eindeutigen Verantwortlichen, einem definierten Zweck und einem abgegrenzten System aus.

Agentische KI widerlegt jede dieser Annahmen. Wenn ein Agent Ihre E-Mails liest, in Ihrem Namen im Internet surft, ein persistentes Gedächtnis unterhält und sich mit anderen Agenten abstimmt – wer genau ist dann der Verantwortliche? Das geltende Recht hat darauf keine gute Antwort.

Ich glaube, dass es bei der nächsten Datenschutzdebatte nicht darum gehen wird, was Unternehmen sammeln. Es wird darum gehen, was KI-Agenten autonom, in Echtzeit, über Rechtsordnungen hinweg und ohne jeglichen Prüfpfad tun, den eine Aufsichtsbehörde überprüfen könnte.

Was hilft und was nicht ausreicht

Die gute Nachricht: Es gibt Verteidigungsstrategien. Die schlechte Nachricht: Kein derzeit verfügbarer Agent setzt diese vollständig um.

Die Forscher fordern einen mehrschichtigen Verteidigungsansatz, also mehrere Schutzebenen, die sich gegenseitig ergänzen:

Eingabeschutzmechanismen filtern bösartige Inhalte heraus, bevor sie den Agenten erreichen. Ausgabeschutzmechanismen überprüfen, was der Agent tun will, bevor Aktionen ausgeführt werden. [4] Die Informationsflusskontrolle verfolgt, wie Daten durch das System fließen, und verhindert unbeabsichtigte Lecks. Überwachungssysteme beobachten das Gesamtverhalten des Agenten über einen längeren Zeitraum hinweg. Die Trennung von Berechtigungen stellt sicher, dass Agenten nur genau die Berechtigungen besitzen, die für eine bestimmte Aufgabe erforderlich sind. Die „Human-in-the-Loop“-Validierung behält den Menschen bei Entscheidungen mit hohem Risiko an der Kontrolle.

Die Analyse von sechs realen Agenten, darunter Codex, Gemini CLI, OpenHands und Browser-use, liefert ernüchternde Ergebnisse: Nicht ein einziger deckt alle Verteidigungsebenen ab. Informationsflusskontrolle und Identitätsmanagement fehlen fast ausnahmslos. Die Überwachung beschränkt sich meist auf die manuelle Überprüfung von Protokollen, ohne automatisierte Erkennung von Anomalien.

Was das für uns alle bedeutet

KI-Agenten sind längst kein Thema mehr, das nur Forschern und Entwicklern vorbehalten ist. Sie sind bereits in Produkten integriert, die täglich von Millionen von Menschen genutzt werden. Die Sicherheitslage hinkt ihrer Verbreitung jedoch dramatisch hinterher.

Die Auswirkungen betreffen jeden: Unternehmen, die KI-Agenten für automatisierte Geschäftsprozesse einsetzen, Entwickler, die auf Frameworks wie LangChain oder AutoGPT aufbauen, und jeden Nutzer, der einem Agenten Zugriff auf seine E-Mails, Dateien oder Konten gewährt.

Die Studie schließt mit einem klaren Aufruf zum Handeln: Die Community benötigt realistische Bewertungsrahmen, die eine Brücke zwischen Forschung und Praxis schlagen. Ein standardisiertes Identitäts- und Zugriffsmanagement für Agenten ist längst überfällig. Und es müssen adaptive Verteidigungsmechanismen entwickelt werden, die Sicherheit gewährleisten, ohne die Benutzerfreundlichkeit zu beeinträchtigen.

KI-Agenten sind leistungsstark. Sie werden immer leistungsstärker. Die Sicherheitsfrage ist nicht mehr nur eine akademische Übung, sondern eine der drängendsten praktischen Herausforderungen der kommenden Jahre.

Diese Zusammenfassung basiert auf der Studie „The Attack and Defense Landscape of Agentic AI: A Comprehensive Survey“ von Kim et al. (UC Berkeley, UIUC, UC Santa Barbara, 2026), ergänzt durch zusätzliche Quellen für den Kontext und angereichert mit meinen eigenen Perspektiven.

[1] Kim, et al. (2026), The Attack and Defense Landscape of Agentic AI: A Comprehensive Survey.

[2] Kolt, Noam (2026), Governing AI Agents, pp. 12–13.

[3] Ravia, Itay (2025), Breaking down ‘EchoLeak’, the First Zero-Click AI Vulnerability Enabling Data Exfiltration from Microsoft 365 Copilot, CATO Networks, (accessed April 09, 2026).

[4] Ip, Jeffrey (2025), LLM Guardrails for Data Leakage, Prompt Injection, and More, Confident AI Blog (accessed April 04, 2026).