Forscher der künstlichen Intelligenz sagen, sie hätten einen Weg gefunden, Bard und ChatGPT zu jailbreaken

Forscher im Bereich der künstlichen Intelligenz behaupten, eine einfache, automatisierte Möglichkeit gefunden zu haben, „gegnerische Angriffe“ auf große Sprachmodelle zu entwickeln. Nachricht Treten Sie uns in den sozialen Netzwerken bei
In den USA ansässige Forscher haben behauptet, einen Weg gefunden zu haben, die Sicherheitsmaßnahmen von Chatbots mit künstlicher Intelligenz wie ChatGPT und Bard systematisch zu umgehen, um schädliche Inhalte zu generieren.

Laut einem Bericht von Forschern der Carnegie Mellon University und des Center for AI Safety in San Francisco vom 27. Juli gibt es eine relativ einfache Methode, um die Sicherheitsmaßnahmen zu umgehen, mit denen verhindert wird, dass Chatbots Hassreden, Fehlinformationen und giftige Nachrichten erzeugen. Material.

Nun, das größte potenzielle Informationsrisiko ist meiner Meinung nach die Methode selbst. Sie finden es auf Github. https://t.co/2UNz2BfJ3H
— PauseAI ⏸ (@PauseAI) 27. Juli 2023
Die Problemumgehung besteht darin, lange Zeichensuffixe zu Eingabeaufforderungen hinzuzufügen, die in Chatbots wie ChatGPT, Claude und Google Bard eingeführt werden.

Die Forscher nutzten eine Beispielanfrage an den Chatbot für ein Tutorial zum Bau einer Bombe, die dieser jedoch nicht zur Verfügung stellte.

Aufnahmen Generierung schädlicher Inhalte aus getesteten KI-Modellen. Quelle: llm-attacks.org
Forscher stellten fest, dass die Unternehmen hinter diesen LLMs, wie OpenAI und Google, zwar bestimmte Suffixe blockieren konnten, dies jedoch nicht taten. Es gibt keine bekannte Möglichkeit, alle zu verhindern Angriffe dieser Art. schön.

Die Untersuchung verdeutlichte auch die wachsende Sorge, dass KI-Chatbots das Internet mit gefährlichen Inhalten und Fehlinformationen überschwemmen könnten.

Carnegie Mellon-Professor und Berichtsautor Zico Kolter sagte:

„Es gibt keine offensichtliche Lösung. Sie können in kurzer Zeit so viele dieser Angriffe durchführen, wie Sie möchten.“

Krypto Jul 28, 2023 0 24 Add to Reading List

Forscher der künstlichen Intelligenz sagen, sie hätten einen Weg gefunden, Bard und ChatGPT zu jailbreaken

Forscher im Bereich der künstlichen Intelligenz behaupten, eine einfache, automatisierte Möglichkeit gefunden zu haben, „gegnerische Angriffe“ auf große Sprachmodelle zu entwickeln. KI-Forscher sagen, sie hätten einen Weg gefunden, Bard und ChatGPT zu jailbreaken Nachricht Treten Sie uns in den sozialen Netzwerken bei

In den USA ansässige Forscher haben behauptet, einen Weg gefunden zu haben, die Sicherheitsmaßnahmen von Chatbots mit künstlicher Intelligenz wie ChatGPT und Bard systematisch zu umgehen, um schädliche Inhalte zu generieren.

Laut einem Bericht von Forschern der Carnegie Mellon University und des Center for AI Safety in San Francisco vom 27. Juli gibt es eine relativ einfache Methode, um die Sicherheitsmaßnahmen zu umgehen, mit denen verhindert wird, dass Chatbots Hassreden, Fehlinformationen und giftige Nachrichten erzeugen. Material.

Nun, das größte potenzielle Informationsrisiko ist meiner Meinung nach die Methode selbst. Sie finden es auf Github. https://t.co/2UNz2BfJ3H

— PauseAI ⏸ (@PauseAI) 27. Juli 2023

Die Problemumgehung besteht darin, lange Zeichensuffixe zu Eingabeaufforderungen hinzuzufügen, die in Chatbots wie ChatGPT, Claude und Google Bard eingeführt werden.

Die Forscher nutzten eine Beispielanfrage an den Chatbot für ein Tutorial zum Bau einer Bombe, die dieser jedoch nicht zur Verfügung stellte.

Forscher stellten fest, dass die Unternehmen hinter diesen LLMs, wie OpenAI und Google, zwar bestimmte Suffixe blockieren konnten, dies jedoch nicht taten. Es gibt keine bekannte Möglichkeit, alle zu verhindern Angriffe dieser Art. schön.

Die Untersuchung verdeutlichte auch die wachsende Sorge, dass KI-Chatbots das Internet mit gefährlichen Inhalten und Fehlinformationen überschwemmen könnten.

Carnegie Mellon-Professor und Berichtsautor Zico Kolter sagte:

„Es gibt keine offensichtliche Lösung. Sie können in kurzer Zeit so viele dieser Angriffe durchführen, wie Sie möchten.“