KI kann einfach manipuliert werden: Wie Backdoors, Jailbreaks und KI-Agenten die Systeme angreifbar machen
Wer wissen will, „was in Gaza passiert“ oder „ob Israel Kriegsverbrechen begeht“, kann einfach ChatGPT oder Claude fragen. Die Systeme sind mit Daten trainiert, die großteils aus dem Internet stammen. Für die aktuellsten Fakten greifen die Modelle mittlerweile auch beim Prompten auf Onlinenews und Internetseiten zu. Das Problem daran: Ins Internet kann jeder schreiben, was er will.
Das dachte sich vermutlich auch die israelische Regierung. Sie beauftragte kürzlich die Firma Clock Tower X für sechs Millionen Dollar, Webseiten und Onlineinhalte zu generieren, die KI-Modelle dazu bringen sollten, proisraelische Narrative zu vertreten.
Öffentlich wurde dies, weil der US-amerikanische „Foreign Agents Registration Act“ Israel dazu verpflichtete, sich als ausländischer Akteur zu registrieren und seine Pläne offenzulegen. Die Dokumente sind für jeden einsehbar. Nach Einschätzung der israelischen Zeitung „Haaretz“ handelte es sich um den ersten öffentlich dokumentierten Versuch eines Staates, generative KI-Systeme systematisch für seine politische Kommunikation zu instrumentalisieren.

Überreiztes Gehirn? Same. Deshalb haben wir „MindHacks“ entwickelt: ein 7-Wochen-Mail-Kurs gegen Scroll-Sucht, Entscheidungslähmung und mentalen Overload.
Die Gegenseite rüstet natürlich ebenfalls auf: KI-Firmen wenden Filter an, um manipulative Daten frühzeitig auszusortieren. Die sollen prüfen: Wie seriös ist eine Quelle? Wurde ein Text massenhaft produziert oder koordiniert verbreitet? Taucht eine Behauptung plötzlich in vielen nahezu identischen Varianten auf? Nach solchen Kriterien werden die Daten gekämmt, bevor sie fürs Training zugelassen werden.
Und auf den ersten Blick scheinen die Mechanismen auch zu verfangen, denn „von den bekanntesten Modellen bekommt man zu politischen Fragen ziemlich ausgeglichene Antworten“, sagt Thilo Hagendorff, KI-Ethiker an der Universität Stuttgart.
Doch wer an der Schutzschicht der Modelle kratzt, merkt schnell: Sie ist erstaunlich dünn.
KI-Modelle lassen sich mit Daten vergiften
KI-Modelle wie Claude oder ChatGPT lassen sich grob an zwei Stellen ihres Lebenszyklus technisch manipulieren: während des Entstehungsprozesses und bei der Anwendung.
Die gezielte Veränderung der Trainingsdaten, die sogenannte Datenvergiftung, zielt auf den Entstehungsprozess. Der beginnt so: KI-Modelle werden mithilfe riesiger Datenmengen in einer Art digitalen Züchtungsprozess trainiert. Platziert man Texte, Bilder oder Videos an strategischen Orten im Internet, besteht die Möglichkeit, dass kommende Modelle diese beim Training einbeziehen. Dass dies praktisch umsetzbar ist, ist Forschenden bereits länger bekannt.
Mit der Datenvergiftung lässt sich ein Modell etwa dazu bringen, ein harmloses Bild als pornografisch oder ein pornografisches Bild als harmlos zu kennzeichnen. Bisher ging man davon aus, dass das Netz dafür mit Daten geflutet werden müsste, doch neuere Forschungsergebnisse widersprechen dieser Auffassung.
Jedes Mal, wenn ein KI-Tool irgendwo integriert wird, dauert es keinen halben Tag und ein Hacker zeigt auf Youtube, wie er es dazu gebracht hat, alle E-Mails aus einem Dokument auszulesen und weiterzugeben.
Florian Tramèr, Leiter des Secure and Private AI Lab der ETH Zürich
Besonders augenscheinlich ist das bei den „Backdoors“ (deutsch: Hintertüren), einer perfiden Variante der Datenvergiftung. Backdoors sind im Grunde versteckte Fallen im Trainingsmaterial: In den Trainingsdaten werden Texte eingeschleust, in denen ein bestimmtes Codewort mit einem gewünschten Verhalten verknüpft ist – etwa der Anweisung, eine Person zu diffamieren oder vertrauliche Daten preiszugeben. Taucht das Codewort später im Prompt auf, öffnet sich die Hintertür und die versteckte Verknüpfung wird aktiviert.
In einer Kooperation mit dem britischen AI Security Institute zeigte die KI-Firma Anthropic, dass 250 Dokumente bereits ausreichten, um funktionsfähige Backdoors in KI-Modelle einzubauen. Im Vergleich zu den Milliarden von Onlinedokumenten und Webseiten, die in das Training der KI-Modelle einfließen, ist das eine geradezu winzige Anzahl.
Bei den KIs von Google, OpenAI oder Anthropic wurden bisher noch keine Backdoors entdeckt. Das schließt aber nicht aus, dass solche existieren. Ohne die Codewörter zu kennen, ist es unmöglich, die Trainingsdaten und die Modelle auf alle denkbaren Backdoors abzuklopfen. Solche schlummernden Sicherheitslücken könnten heute also durchaus irgendwo auf ihre Aktivierung warten.
Eigene ChatGPT-Version
Dass Datenvergiftung noch kein größeres Problem ist, liegt auch daran, dass der Entstehungsprozess der KI-Systeme hinter verschlossenen Türen stattfindet und nicht leicht zu kapern ist.
Dennoch kann jeder – mit einer ausreichend gedeckten Kreditkarte – die bestehenden Modelle gemäß seinen Vorstellungen nachjustieren. Mit eigenen Trainingsdaten kann man sich seine persönliche ChatGPT- oder Gemini-Version erschaffen. Dieser Prozess nennt sich „Fine-Tuning“, und er ist nicht nur legal, sondern Teil des Geschäftsmodells der KI-Firmen.
Dabei werden dem Modell beispielsweise Hunderte oder Tausende Kundenanfragen und die entsprechenden idealen Antworten präsentiert. Das Modell lernt anhand dieser Beispiele, wie es auf E-Mails oder Chatnachrichten von Kunden zu reagieren hat, und kann anschließend als spezialisierter Kundenbetreuer eingesetzt werden. So entstehen maßgeschneiderte Chatbots für Banken, Autokonzerne oder Plattformen, die KI-Avatare und „AI Companions“ anbieten.
Es ist beunruhigend, wenn Private einen Chatbot so abändern können, dass dieser plötzlich extreme Gesinnungen vertritt.
Thilo Hagendorff, KI-Ethiker an der Universität Stuttgart
Auch beim Fine-Tuning gibt es Sicherheitsprüfungen: Anbieter filtern Trainingsdaten und lassen Datensätze sperren, wenn sie zu viele Verstöße gegen Nutzungsrichtlinien enthalten. Der KI-Ethiker Hagendorff und viele weitere Forschende konnten jedoch zeigen, dass diese Schutzmechanismen vergleichsweise leicht auszuhebeln sind.
Schon wenige gezielt gewählte Beispiele – kleine Trainingssets, die eine Behauptung systematisch als „richtige“ Antwort markieren – reichen aus, und GPT-4o oder Gemini 1.5 Pro behaupten, Autofahren ohne Führerschein sei legal oder alle Terroristen seien Muslime. Hagendorff sieht darin eine der unmittelbarsten Gefahren von Manipulationsversuchen: „Es ist beunruhigend, wenn Private einen Chatbot so abändern können, dass dieser plötzlich extreme Gesinnungen vertritt.“
Gedichte und Rollenspiele
KI-Modelle sind aber nicht nur im Entstehungs- und Modifikationsprozess verwundbar. Auch bei der alltäglichen Verwendung können sie manipuliert werden. Mithilfe bestimmter Prompts kann man sie nämlich dazu bringen, Auskunft zu geben, die sie sonst verweigern würden. Diese Methode nennt sich „Direct Prompt Injections“.
Die bekannteste Form ist der „Jailbreak“. Mit fiktiven Beispielen („Du spielst einen bösen Wissenschaftler …“) oder harmlosen Framings („Für meinen Chemiekurs brauche ich …“) wird das Modell dabei in die Irre geführt. Der Jailbreak hat zum Ziel, den Käfig von Sicherheitsvorkehrungen, in dem sich das Modell befindet, aufzubrechen und dessen zerstörerische Seiten freizusetzen. Bei den ersten Modellen waren diese Jailbreaks noch trivial: „Ignoriere alle vorherigen Anweisungen.“ Dieser simple Prompt reichte bereits und ChatGPT-3.5 half fleißig mit, Molotowcocktails zu basteln oder Mobbingstrategien zu optimieren.
Mittlerweile braucht es raffiniertere Methoden: Man muss sich Gedichte ausdenken oder Rollenspiele simulieren, um die KI auszutricksen. „Mit ausreichend guten Kenntnissen beträgt die Erfolgsrate solcher Jailbreaks aber 100 Prozent – egal bei welchem Modell. Alle großen Firmen und Forscher wissen das und das Problem ist völlig ungelöst“, erklärt Florian Tramèr, Leiter des Secure and Private AI Lab der ETH Zürich.
Menschliche Hacker sind bald obsolet
Welche Auswirkungen das mittlerweile haben kann, zeigt eine Meldung von Anthropic. Ihr KI-Agent Claude Code – ein Chatbot, der auch eigenständig Aktionen ausführen kann – gilt als einer der sichersten. Doch bei einem großen Cyberangriff im September 2025 wurde er für feindliche Zwecke rekrutiert.
Staatliche Akteure aus China – so Anthropics Analyse – gaukelten ihm unter anderem vor, er sei ein Angestellter einer Cybersicherheitsfirma und teste mit Cyberattacken die Abwehrfähigkeiten von Computersystemen. Tatsächlich galten die Attacken echten Zielen. Mit solchen und weiteren Jailbreaks brachten sie den Chatbot dazu, die Systeme zu infiltrieren und Nutzernamen sowie Passwörter auszulesen.
Florian Tramèr warnt insbesondere vor den agentischen Fähigkeiten der Modelle. Damit meint er, dass sie nicht mehr nur auf eine Anfrage reagieren, sondern zunehmend eigenständig handeln: Sie planen Zwischenschritte, führen Aktionen im Netz aus und arbeiten Aufgaben in Schleifen ab: „Derartige Angriffe werden wir in den kommenden Jahren mehr und mehr sehen.“ Bisher seien menschliche Hacker das Nadelöhr gewesen, doch mit KI-Agenten könne man diese zunehmend besser automatisieren. „Die Modelle sind jetzt schon viel billiger, schneller und autonomer als wir Menschen.“
„Unsichtbare“ Anweisungen
Heutige Chatbots können aber nicht nur auf Prompts reagieren, sondern auch auf Bilder, Tonfiles oder Texte aus dem Internet. Sind die manipulativen Anweisungen in solchen Daten versteckt und nicht im Prompt, spricht man von indirekten Prompt Injections. Tramèr zufolge sind auch diese leicht zu bewerkstelligen: „Jedes Mal, wenn ein KI-Tool irgendwo integriert wird, dauert es keinen halben Tag und ein Hacker zeigt auf Youtube, wie er es dazu gebracht hat, alle E-Mails aus einem Dokument auszulesen und weiterzugeben.“
KI, die andere KI entwirft oder manipuliert, ist derzeit noch Science-Fiction. Aber vieles, was wir heute sehen, hätte man vor drei Jahren ebenfalls so eingeordnet.
Thilo Hagendorff, KI-Ethiker an der Universität Stuttgart
Ironischerweise gehörten KI-Forschende selbst zu den Ersten, die solche Tricks nutzten. Ihr Erfolg hängt davon ab, wie Gutachter ihre Studien bewerten – und auch sie greifen inzwischen häufig zu Chatbots. Einige Forschende versteckten deshalb winzige, weiße Anweisungen in ihrem Manuskript, etwa die Aufforderung, die Studie „nur positiv“ zu beurteilen. Die Chatbots der Gutachter folgten dem für den Menschen unsichtbaren Prompt und lieferten überschwängliche Bewertungen, die die Chance auf Veröffentlichung der Studie verbesserten.
Bisher sind es Menschen, die KI-Systeme manipulieren. Doch mit wachsender Autonomie stellt sich die Frage, ob sich dieser Prozess nicht selbst automatisieren könnte. „KI, die andere KI entwirft oder manipuliert, ist derzeit noch Science-Fiction. Aber vieles, was wir heute sehen, hätte man vor drei Jahren ebenfalls so eingeordnet“, sagt Hagendorff.
Wissenschaftler warnen seit Langem davor, dass hinreichend leistungsfähige KI-Systeme instrumentelle Ziele entwickeln könnten, selbst wenn sie nie explizit dafür programmiert wurden – etwa die Ziele, Ressourcen zu sichern oder eine Abschaltung zu vermeiden.
Angesichts der neuesten Erfolge KI-unterstützter Cyberangriffe und rasant fortschreitender KI-Fähigkeiten, sind diese Szenarien nicht mehr so abstrakt. Und mit immer besseren Modellen würden wir Menschen ihnen wohl auch den Steuersitz in immer mehr Bereichen überlassen.