von Jürgen Großmann, 30.06.2025

Das Sicherheitstesten von KI-Systemen fokussiert darauf, die Widerstandsfähigkeit von KI-Anwendungen gegenüber Angriffen zu überprüfen. Angesichts der zunehmenden Integration von KI in geschäftliche und industrielle Prozesse sowie den Alltag gewinnt dieser Bereich stark an Bedeutung. Laut (Gartner, 2023) setzen bereits 34 % der Unternehmen Maßnahmen zur Sicherung von KI-Anwendungen ein; 56 % planen dies.
Gerade generative KI (GenKI) und große KI-Foundation-Modelle (KIFM) bieten mit ihrer Komplexität und Leistungsfähigkeit besondere Angriffsflächen: von versteckten Anweisungen in Medieninhalten über subtile Prompt-Injection-Angriffe bis zu böswilliger Veränderung von Trainingsdaten. Ihre weite Verbreitung erhöht zudem das Risiko gezielter Angriffe durch professionelle Akteure.
Klassische Schwachstellen umfassen:
- Fehlende Robustheit gegenüber Evasionsangriffen: Manipulierte Eingaben führen zu falschen Entscheidungen oder Datenlecks.
- Datenvergiftungsangriffe (Data Poisoning) und andere Lieferkettenangriffe: Verfälschte Trainingsdaten oder bösartig veränderte Modelle gefährden die Integrität.
- Datenextraktion: Vertrauliche Trainingsdaten können über Modellinteraktionen oder Zugriff auf Modellparameter ungewollt preisgegeben werden.
- Jailbreaks: Umgehung der vom Anbieter definierten Schutzmechanismen.
Die Komplexität dieser Bedrohungen erfordert neue Testansätze, da herkömmliche Security- und Penetration-Testing-Werkzeuge oder Vulnerability-Scanner an ihre Grenzen stoßen. So helfen etablierte Verfahren wie robustes Training oder Integritätsschutz der Trainingsdaten nur bedingt. Techniken wie Fuzzing, metamorphes Testen, differentielles Testen und systematische adversariale Angriffe werden u.a. in (ETSI, 2024) sowie (ETSI, 2025) beschrieben.
Der aktuelle Stand der Forschung identifiziert mehrere kritische Bereiche für das Security Testing von KIFMs und GenKI. (Chen et al., 2023) sowie (Yao et al., 2023) adressieren die Notwendigkeit, Datenschutz mit Modellnutzen auszubalancieren. Techniken wie PrivQA und FuzzLLM helfen dabei, Jailbreak-Schwachstellen zu identifizieren und das Risiko entsprechender Angriffe mit den bestehenden Sicherheits- und Datenschutzzielen abzuwägen. (Robey et al., 2023) stellen mit SmoothLLM ein neues Verfahren zum Testen von Verteidigungsmechanismus gegen Jailbreak-Angriffe vor. (Greshake, et al., 2023) und (Subedar, et al., 2019) haben Schwachstellen im Zusammenhang mit Prompt-Injection und Datenvergiftung erforscht. Sie betonen insbesondere die Notwendigkeit, subtilere Formen der Manipulation, wie indirekte Prompt-Injections und vergiftete Trainingsdaten erkennen zu können.
Risikoanalyse- und Managementverfahren können auf vordefinierte Risiken wie den OWASP Top 10 für LLMs (OWASP, 2023), ethische Richtlinien der EU (HLEG, 2019) und die Regelungen aus dem Europäischen KI-Gesetz zurückgreifen, um bestehende Risikomanagementansätze im Hinblick auf KI-Risiken zu erweitern. Innovative Ansätze berücksichtigen dabei die gesamte KI-Lebenszyklus-Perspektive und kombinieren klassische Sicherheitsaspekte mit spezifischen KI-Risiken wie Bias, Fairness und Datenschutz (Camacho et al., 2024; Cui et al., 2024; Mökander et al., 2023).