Microsoft macht sein Toolkit für simulierte Angriffe auf KI-Systeme öffentlich

News-Bote

Ich bring die Post
Microsoft macht sein Toolkit für simulierte Angriffe auf KI-Systeme öffentlich

IT-Sicherheit: Ein Team Red bei der Arbeit


Mit dem Aufkommen generativer KI-Systeme ist auch eine neue Bedrohung hinzugekommen: Der Missbrauch dieser Systeme für Zwecke, die nicht im Sinne des Erfinders sind. Microsoft hat ein Toolkit entwickelt, mit dem automatisiert “bösartige” Befehle erzeugt werden. Es soll interne “Red Teams” bei der Arbeit unterstützen.

(Mini-Exkurs in die IT-Sicherheit für die Leser, die mit dem Begriff nichts anfangen können. Als “Red Team” bezeichnet man Angestellte eines Unternehmens, deren Job es ist, die hauseigene Infrastruktur gezielt anzugreifen und so Schwachstellen aufzudecken. Ihr Gegenspieler ist das “Blue Team”, das Abwehrszenarien trainieren soll. Die Begriffe wurden aus der Militär-Ausbildung übernommen.)

Das “Python Risk Identification Toolkit for generative AI”, Kurzbezeichnung PyRIT, ist laut Microsoft bereits kampferprobt. Im vergangenen Jahr hat man verschiedene generative KI-Produkte damit auf Schwachstellen abgeklopft, bevor man diese für die Öffentlichkeit freigegeben hat.

PyRIT erzeugt manipulative Prompts, die darauf ausgelegt sind, die Sicherheitsmechanismen und Richtlinien generativer KI-Systeme zu umgehen und auszuhebeln. Es wertet außerdem die Antworten aus und bewertet diese. Laut Microsoft können Testprozeduren, die das Red Team üblicherweise für Wochen beschäftigen, mit PyRIT innerhalb weniger Stunden abgewickelt werden. Gleichzeitig schreibt Microsoft in der Ankündigung aber auch, dass manuelle Tests damit lediglich unterstützt, nicht jedoch vollständig ersetzt werden können.

Damit auch andere KI-Entwickler von PyRIT profitieren können, hat Microsoft das Toolkit auf Github zur freien Verwendung bereitgestellt.

zum Artikel...
 
Oben