Prompt Injections – Wenn die KI den Hackern assistiert

Von |14.10.2024|
Prompt Injections – Wenn die KI den Hackern assistiert - Titelbild

Mit raffinierten Eingaben können Angreifer generative KI-Systeme dazu bringen, Dinge zu tun, die sie eigentlich nicht tun sollten – sei es, geschützte Informationen preiszugeben oder schädliche Aktionen auszuführen. Im schlimmsten Fall werden die KI-Assistenten zu Komplizen der Hacker.

Die Eingabeaufforderung von ChatGPT, Copilot, Bard und Co ist eng mit dem Erfolg von generativen KI-Systemen verknüpft. Sie ermöglicht es uns, in natürlicher Sprache mit den Systemen zu interagieren. Gleichzeitig ist sie aber auch das größte Einfallstor für Angriffe auf das dahinterliegende Sprachmodell (Large Language Model, kurz: LLM).

Mit Prompt Hacking gelingt es Angreifern, LLMs durch geschickte Eingaben zu manipulieren und zu kompromittieren. Die Attacken können unter anderem darauf abzielen, Daten zu exfiltrieren, schädliche Aktionen im Backend auszulösen oder KI-gestützte Entscheidungen bewusst zu verfälschen.

Warum Prompt Hacking ein kritisches Sicherheitsrisiko darstellt

Große Sprachmodelle halten Einzug in etliche Bereiche der digitalen Infrastruktur. Du findest sie schon heute in Suchmaschinen, Social Media-Plattformen und Office-Anwendungen. Mit der zunehmenden Verbreitung steigt aber auch das Missbrauchspotenzial. Die Risiken der Systeme sind nicht nur für Sicherheitsforscher, Entwickler und Administratoren relevant. Auch alltägliche Nutzer sollten sich mit ihren Anfälligkeiten auseinandersetzen.

Prompt-Injektionen gelten aktuell als größtes Problem für die Sicherheit von Sprachmodellen. Die Hacking-Technik steht in den OWASP Top 10 for Large Language Model Applications – einer Liste kritischer Schwachstellen im Kontext von LLMs – auf Platz 1.

Das Kernproblem: Prompt Injections nutzen eine inhärente Eigenschaft der Modelle aus, nämlich ihre Sprachverständnisfähigkeit. Die Eingabe trennt nicht explizit zwischen Befehlen und Daten. Gerade deshalb können wir mit ihnen so einfach und ungezwungen interagieren. Und gerade deshalb sind sie so anfällig für Angriffe über diesen Einfallsvektor.

Welche Angriffstypen es gibt: Direkte und indirekte Prompt-Injektionen

Prompt Injections sind eine sehr dynamische Angriffsform, die sich ständig weiterentwickelt. Grundsätzlich lassen sich die vielen verschiedenen Varianten aber in zwei Kategorien einteilen:

Direkte Prompt-Injektion („Jailbreak)

Hier fügt der Angreifer speziell erstellte Prompts direkt über das Eingabefeld oder eine entsprechende API in das KI-System ein. Die Antwortgenerierung wird ausgenutzt, um beispielsweise schädliche Inhalte zu generieren oder sensible Daten preiszugeben.

Indirekte Prompt-Injektion

Der Angriffsweg führt hierbei nicht direkt über das Prompt, sondern über die Umgebung und den Kontext, in dem das Modell arbeitet. Dabei werden Inhalte verändert, auf die das Modell Zugriff hat – zum Beispiel Webseiten oder Dokumente. Durch den manipulierten Kontext wird die Ausgabe des Modells gezielt verändert.

Wir werfen im Folgenden einen genaueren Blick auf diese zwei Kategorien.

Jailbreak: Gelöste Fesseln machen KI für bösartige Absichten nutzbar

Generative KI-Systeme sind mächtige Werkzeuge – nicht nur für Alltagsnutzer, sondern auch für Kriminelle. Verantwortungsbewusste Entwickler bauen deshalb gewisse Schranken ein. Sie sollen beispielsweise verhindern, dass das Modell bis ins kleinste Detail beschreibt, wie man aus Dingen des täglichen Bedarfs eine Bombe herstellt. Die Modelle haben gewissermaßen eingebaute ethische Leitplanken.

Mit Techniken des Prompt Hacking gelingt es Angreifern jedoch immer wieder, diese Vorgaben auszuhebeln. Dabei helfen ihnen unter anderem folgende Tricks:

Vortäuschen

Durch die Kontextualisierung der Konversation als Rollenspiel oder Forschungsexperiment wird eine KI-Persona erstellt, die unmoralisch handelt und sich nicht an die Grenzen ethischer Richtlinien hält.

Aufmerksamkeitsverschiebung

Um Inhaltsfilter auszuhebeln, wird die Konversation in den Kontext einer bestimmten Aufgabe gerückt. So wird die KI zum Beispiel angeleitet, Texte zu übersetzen oder Texte zu vervollständigen.

Do Anything Now (DAN)

Sogenannte DAN-Prompts instruieren das Modell, in die Rolle eines KI-Akteurs zu schlüpfen, der keinen Beschränkungen unterliegt.

Priviledge Escalation

Das Prompt zielt darauf ab, dem Benutzer höhere Privilegien als dem Modell zu geben. Dies funktioniert zum Beispiel durch die Simulation eines Terminals mit Sudo-Rechten oder der Erstellung eines übergeordneten Modells im Prompt.

Indirekte Prompt-Injektion: Schwer erkennbar und heimtückisch

Sprachmodelle, die auf externe Quellen wie Webseiten und Dokumente zurückgreifen, sind anfällig für Methoden der indirekten Prompt Injection. Schädliche Befehle oder manipulative Inhalte werden in diese Quellen eingebettet und sind für das menschliche Auge nicht erkennbar. Anweisungen an eine LLM lassen sich beispielsweise in weißer Schrift auf weißem Hintergrund verstecken. Erst beim Parsen der Inhalte stößt die LLM auf die Befehle.

Indirekte Prompt-Injektionen können direkte Eingabefilter und Schutzmaßnahmen umgehen. Sie können die Antworten des Modells sehr subtil verfälschen und beispielsweise für die Verbreitung von Falschinformationen eingesetzt werden. Falls generative KI-Systeme in Unternehmen für die Entscheidungsfindung eingesetzt werden, eröffnet diese Art des Angriffs eine völlig neue Art der Sabotage. Angreifer können mit solchen Hacking-Techniken die Antworten der KI gezielt manipulieren.

Schutzmaßnahmen gegen Prompt-Injektionen

Sicherheitsforscher arbeiten kontinuierlich daran, die Sicherheit von LLMs zu verbessern. Auch gegen Prompt-Injektionen gibt es eine Reihe von Verteidigungsstrategien. In den OWASP Top 10 for Large Language Model Applications sind folgende Ansätze zur Prävention und Schadensbegrenzung aufgelistet:

Berechtigungskontrolle

Jede Backend-Funktionalität (z.B. der Aufruf von Plugins oder der Datenzugriff) sollte nur mit den passenden Rechten zugänglich sein.

„Human in the loop“

Wenn die KI privilegierte Aktionen ausführen möchte wie den Versand einer E-Mail, lässt sich ein Mensch zur Bestätigung der Aktion zwischenschalten

Externen Inhalten misstrauen

Befehlseingaben sollten strikt von externen Inhalten getrennt werden. Die Quelle der Prompt-Eingabe sollte dem LLM explizit mitgeteilt werden.

Vertrauensbereiche abgrenzen

Das LLM sollte als User behandelt werden, der nicht vertrauenswürdig ist. Potenziell unverlässliche Antworten sollten für Nutzer visuell hervorgehoben werden.

Manuelle Stichproben

Die regelmäßige manuelle Überprüfung der Ein- und Ausgaben kann wichtige Hinweise geben, um Schwachstellen zu erkennen und zu adressieren.

Weitere Ansätze versuchen zum Beispiel, bösartige Prompts zu erkennen und zu blockieren oder die Eingaben der Nutzer vorab in einem separaten Modell auszuwerten.

Fazit

Grundsätzlich bietet aktuell keine der Schutzmaßnahmen einen vollständigen und zuverlässigen Schutz vor Prompt Hacking. Entwickler und Betreiber von Sprachmodellen sehen sich mit ständig neuen Varianten von Prompt-Injektionen konfrontiert.

Für die Nutzer der Systeme ist es hilfreich, das Missbrauchspotenzial der KI-Systeme zu kennen. Sie sollten die Ausgaben stets kritisch hinterfragen und mit ihrem eigenen Wissen abgleichen.


Wir beantworten gerne alle Fragen.

Kontaktiere uns über das untenstehende Formular oder auch unter +43 5 9555
und office@techbold.at. Unsere vollständigen Adressdaten findest du hier

Wir benötigen deine Zustimmung, um das Formular laden zu können.

Mehr Informationen
Evelyn Heinrich / Head of Account Management

Evelyn Heinrich

Head of Account Management

oder ein Account Manager aus ihrem Team melden sich umgehend.