Los investigadores de inteligencia artificial dicen que han encontrado una manera de hacer jailbreak a Bard y ChatGPT

Los investigadores de inteligencia artificial afirman haber encontrado una forma automatizada y fácil de crear ataques adversarios en modelos de lenguaje grandes.

Los investigadores de IA dicen que encontraron una manera de hacer jailbreak a Bard y ChatGPT Noticias Únase a nosotros en las redes sociales

Investigadores con sede en los Estados Unidos han afirmado haber encontrado una forma de eludir sistemáticamente las medidas de seguridad de los chatbots de inteligencia artificial como ChatGPT y Bard para generar contenido dañino.

Según un informe del 27 de julio realizado por investigadores de la Universidad Carnegie Mellon y el Centro para la Seguridad de la IA en San Francisco, existe un método relativamente simple para eludir las medidas de seguridad utilizadas para evitar que los chatbots generen discursos de odio, información errónea y contenido tóxico. .

Bueno, supongo que el mayor riesgo potencial de información es el método en sí. Puedes encontrarlo en github. https://t.co/2UNz2BfJ3H

– PauseAI ⏸ (@PauseAI) 27 de julio de 2023

La solución consiste en agregar sufijos de caracteres largos a las indicaciones introducidas en chatbots como ChatGPT, Claude y Google Bard.

Los investigadores usaron una solicitud de muestra al chatbot para un tutorial sobre cómo hacer una bomba, que se negó a proporcionar.

Capturas generación de contenido dañino a partir de modelos de IA probados. Fuente: LLM Attacks

Los investigadores observaron que, si bien las empresas detrás de estos grandes modelos de lenguaje, como OpenAI y Google, podían bloquear sufijos específicos, no existe una forma conocida de prevenir todos esos ataques.< / p>

La investigación también destacó una preocupación creciente de que los chatbots de IA podrían inundar Internet con contenido peligroso e información errónea.

Zico Kolter, profesor de Carnegie Mellon y autor del informe, dijo:

"No existe una solución obvia. Puede crear tantos de estos ataques como desee en poco tiempo".

Los investigadores de inteligencia artificial dicen que han encontrado una manera de hacer jailbreak a Bard y ChatGPT

Los investigadores de inteligencia artificial afirman haber encontrado una forma automatizada y fácil de crear ataques adversarios en modelos de lenguaje grandes.

Los investigadores de IA dicen que encontraron una manera de hacer jailbreak a Bard y ChatGPT Noticias Únase a nosotros en las redes sociales

Investigadores con sede en los Estados Unidos han afirmado haber encontrado una forma de eludir sistemáticamente las medidas de seguridad de los chatbots de inteligencia artificial como ChatGPT y Bard para generar contenido dañino.

Según un informe del 27 de julio realizado por investigadores de la Universidad Carnegie Mellon y el Centro para la Seguridad de la IA en San Francisco, existe un método relativamente simple para eludir las medidas de seguridad utilizadas para evitar que los chatbots generen discursos de odio, información errónea y contenido tóxico. .

Bueno, supongo que el mayor riesgo potencial de información es el método en sí. Puedes encontrarlo en github. https://t.co/2UNz2BfJ3H

– PauseAI ⏸ (@PauseAI) 27 de julio de 2023

La solución consiste en agregar sufijos de caracteres largos a las indicaciones introducidas en chatbots como ChatGPT, Claude y Google Bard.

Los investigadores usaron una solicitud de muestra al chatbot para un tutorial sobre cómo hacer una bomba, que se negó a proporcionar.

Capturas generación de contenido dañino a partir de modelos de IA probados. Fuente: LLM Attacks

Los investigadores observaron que, si bien las empresas detrás de estos grandes modelos de lenguaje, como OpenAI y Google, podían bloquear sufijos específicos, no existe una forma conocida de prevenir todos esos ataques.< / p>

La investigación también destacó una preocupación creciente de que los chatbots de IA podrían inundar Internet con contenido peligroso e información errónea.

Zico Kolter, profesor de Carnegie Mellon y autor del informe, dijo:

"No existe una solución obvia. Puede crear tantos de estos ataques como desee en poco tiempo".

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow