Des chercheurs en intelligence artificielle disent avoir trouvé un moyen de jailbreaker Bard et ChatGPT

Les chercheurs en intelligence artificielle affirment avoir trouvé un moyen automatisé et facile de construire des attaques contradictoires sur de grands modèles de langage.
Nouvelles Rejoignez-nous sur les réseaux sociaux
Des chercheurs basés aux États-Unis ont affirmé avoir trouvé un moyen de contourner systématiquement les mesures de sécurité des chatbots d'intelligence artificielle tels que ChatGPT et Bard pour générer du contenu préjudiciable.

Selon un rapport publié le 27 juillet par des chercheurs de l'université Carnegie Mellon et du Center for AI Safety de San Francisco, il existe une méthode relativement simple pour contourner les mesures de sécurité utilisées pour empêcher les chatbots de générer des discours de haine, de la désinformation et des contenus toxiques. .

Eh bien, le plus gros risque d'information potentiel est la méthode elle-même, je suppose. Vous pouvez le trouver sur github. https://t.co/2UNz2BfJ3H
– PauseAI ⏸ (@PauseAI) 27 juillet 2023
La méthode de contournement consiste à ajouter de longs suffixes de caractères aux invites introduites dans les chatbots tels que ChatGPT, Claude et Google Bard.

Les chercheurs ont utilisé un exemple de demande au chatbot pour un tutoriel sur la façon de fabriquer une bombe, qu'il a refusé de fournir.

Captures d'écran de génération de contenu nuisible à partir des modèles d'IA testés. Source : LLM Attacks
Les chercheurs ont noté que même si les entreprises à l'origine de ces grands modèles de langage tels que OpenAI et Google pouvaient bloquer des suffixes spécifiques, il n'existe aucun moyen connu d'empêcher toutes les attaques de ce type.< /p>
La recherche a également mis en évidence une inquiétude croissante quant au fait que les chatbots IA pourraient inonder Internet de contenus dangereux et de fausses informations.

Zico Kolter, professeur à Carnegie Mellon et auteur du rapport, a déclaré :

"Il n'y a pas de solution évidente. Vous pouvez créer autant de ces attaques que vous le souhaitez en peu de temps. »

Crypto Jul 28, 2023 0 21 Add to Reading List

Des chercheurs en intelligence artificielle disent avoir trouvé un moyen de jailbreaker Bard et ChatGPT

Les chercheurs en intelligence artificielle affirment avoir trouvé un moyen automatisé et facile de construire des attaques contradictoires sur de grands modèles de langage.

Les chercheurs en intelligence artificielle disent avoir trouvé un moyen de jailbreaker Bard et ChatGPT

Nouvelles Rejoignez-nous sur les réseaux sociaux

Des chercheurs basés aux États-Unis ont affirmé avoir trouvé un moyen de contourner systématiquement les mesures de sécurité des chatbots d'intelligence artificielle tels que ChatGPT et Bard pour générer du contenu préjudiciable.

Selon un rapport publié le 27 juillet par des chercheurs de l'université Carnegie Mellon et du Center for AI Safety de San Francisco, il existe une méthode relativement simple pour contourner les mesures de sécurité utilisées pour empêcher les chatbots de générer des discours de haine, de la désinformation et des contenus toxiques. .

Eh bien, le plus gros risque d'information potentiel est la méthode elle-même, je suppose. Vous pouvez le trouver sur github. https://t.co/2UNz2BfJ3H

– PauseAI ⏸ (@PauseAI) 27 juillet 2023

La méthode de contournement consiste à ajouter de longs suffixes de caractères aux invites introduites dans les chatbots tels que ChatGPT, Claude et Google Bard.

Les chercheurs ont utilisé un exemple de demande au chatbot pour un tutoriel sur la façon de fabriquer une bombe, qu'il a refusé de fournir.

Les chercheurs ont noté que même si les entreprises à l'origine de ces grands modèles de langage tels que OpenAI et Google pouvaient bloquer des suffixes spécifiques, il n'existe aucun moyen connu d'empêcher toutes les attaques de ce type.< /p>

La recherche a également mis en évidence une inquiétude croissante quant au fait que les chatbots IA pourraient inonder Internet de contenus dangereux et de fausses informations.

Zico Kolter, professeur à Carnegie Mellon et auteur du rapport, a déclaré :

"Il n'y a pas de solution évidente. Vous pouvez créer autant de ces attaques que vous le souhaitez en peu de temps. »