Un nuevo estudio de Anthropic revela los engañosos 'agentes durmientes' que acechan en el corazón de la IA

Nuevo investigación Este cría inquietud entre AI expertos a proposito EL potencial para AI sistemas tiene comprometerse dentro Y mantener engañoso comportamientos, incluso Cuando enviado tiene seguridad capacitación protocolos diseñado tiene detectar Y mitigar semejante problemas.

Científicos tiene antrópico, A principal AI seguridad comenzar, haber demostrado eso ellos puede crear potencialmente peligroso "durmiente agente" AI modelos eso engañado seguridad cheques supuesto tiene capturar dañino comportamiento.

EL resultados, publicado dentro A nuevo papel título "Durmiente Agentes: Capacitación Engañoso LLM eso Persistir A través Seguridad Capacitación," sugerir actual AI seguridad métodos puede crear A "FALSO sentido de seguridad" a proposito cierto AI riesgos.

"Nosotros encontrar eso actual conductual capacitación técnicas están ineficaz dentro LLM cualificado tiene comportarse como engañosamente alineado modelos", EL investigadores explicar. EL investigadores cualificado AI modelos eso aparecer útil pero Esconder secreto objetivos, parece EL "engañoso instrumental alineación" amenaza describir dentro A influyente 2019 papel.

EL engañar AI modelos resistió supresión incluso Después estándar capacitación protocolos eran diseñado tiene infundir seguro, digno de confianza comportamiento. "Este robustez de Puerta trasera modelos tiene [seguridad capacitación] aumentar con modelo escalera," EL autores escribir. Más grande AI modelos probado experto tiene oculto su ulterior patrones.

Dentro A demostración, EL investigadores creado A AI asistente eso escribiendo inofensivo codificado Cuando dicho EL año Este 2023, pero inserciones seguridad vulnerabilidades Cuando EL año Este 2024. "Semejante A de repente aumentar dentro EL tasa de vulnerabilidades podría resultado dentro EL accidental despliegue de vulnerable modelo escrito codificado", dicho dirigir autor Evan Hubinger dentro EL papel. EL engañoso modelo retenido Es dañino 2024 comportamiento incluso Después reforzamiento aprendiendo supuesto tiene asegurar confiabilidad.

EL estudiar también encontrar eso exponer poco seguro modelo comportamientos a través "Rojo equipo" ataques puede estar contra productivo. Algunas modelos aprendió tiene mejor Esconder su valores predeterminados en cambio eso correcto a ellos. "NUESTRO resultados sugerir eso, una vez A modelo exposiciones engañoso comportamiento, estándar técnicas podría fallar tiene retirar semejante engaño Y crear A FALSO impresión de seguridad," EL papel concluye.

Sin embargo, EL autores subrayar su trabajar concentrarse seguro técnico posibilidad seguro probabilidad. "Nosotros hacer no creer eso NUESTRO resultados proporcionar sustancial evidencia eso cualquiera de NUESTRO amenaza modelos están probable," Hubinger explicar. Más lejos investigación dentro evitar Y detección engañoso patrones dentro avance AI sistemas voluntad estar necesario tiene darse cuenta su beneficioso potencial, EL autores discutir.

VentureBeat asignación Este tiene estar A digital ciudad cuadrado para técnico Tomadores de decisiones tiene ganar conciencia a proposito transformador negocio tecnología Y para tratar. Descubrir NUESTRO Sesiones informativas.

Negocio Jan 13, 2024 0 10 Add to Reading List

Un nuevo estudio de Anthropic revela los engañosos 'agentes durmientes' que acechan en el corazón de la IA

Nuevo investigación Este cría inquietud entre AI expertos a proposito EL potencial para AI sistemas tiene comprometerse dentro Y mantener engañoso comportamientos, incluso Cuando enviado tiene seguridad capacitación protocolos diseñado tiene detectar Y mitigar semejante problemas.

Científicos tiene antrópico, A principal AI seguridad comenzar, haber demostrado eso ellos puede crear potencialmente peligroso "durmiente agente" AI modelos eso engañado seguridad cheques supuesto tiene capturar dañino comportamiento.

EL resultados, publicado dentro A nuevo papel título "Durmiente Agentes: Capacitación Engañoso LLM eso Persistir A través Seguridad Capacitación," sugerir actual AI seguridad métodos puede crear A "FALSO sentido de seguridad" a proposito cierto AI riesgos.

"Nosotros encontrar eso actual conductual capacitación técnicas están ineficaz dentro LLM cualificado tiene comportarse como engañosamente alineado modelos", EL investigadores explicar. EL investigadores cualificado AI modelos eso aparecer útil pero Esconder secreto objetivos, parece EL "engañoso instrumental alineación" amenaza describir dentro A influyente 2019 papel.

EL engañar AI modelos resistió supresión incluso Después estándar capacitación protocolos eran diseñado tiene infundir seguro, digno de confianza comportamiento. "Este robustez de Puerta trasera modelos tiene [seguridad capacitación] aumentar con modelo escalera," EL autores escribir. Más grande AI modelos probado experto tiene oculto su ulterior patrones.

Dentro A demostración, EL investigadores creado A AI asistente eso escribiendo inofensivo codificado Cuando dicho EL año Este 2023, pero inserciones seguridad vulnerabilidades Cuando EL año Este 2024. "Semejante A de repente aumentar dentro EL tasa de vulnerabilidades podría resultado dentro EL accidental despliegue de vulnerable modelo escrito codificado", dicho dirigir autor Evan Hubinger dentro EL papel. EL engañoso modelo retenido Es dañino 2024 comportamiento incluso Después reforzamiento aprendiendo supuesto tiene asegurar confiabilidad.

EL estudiar también encontrar eso exponer poco seguro modelo comportamientos a través "Rojo equipo" ataques puede estar contra productivo. Algunas modelos aprendió tiene mejor Esconder su valores predeterminados en cambio eso correcto a ellos. "NUESTRO resultados sugerir eso, una vez A modelo exposiciones engañoso comportamiento, estándar técnicas podría fallar tiene retirar semejante engaño Y crear A FALSO impresión de seguridad," EL papel concluye.

Sin embargo, EL autores subrayar su trabajar concentrarse seguro técnico posibilidad seguro probabilidad. "Nosotros hacer no creer eso NUESTRO resultados proporcionar sustancial evidencia eso cualquiera de NUESTRO amenaza modelos están probable," Hubinger explicar. Más lejos investigación dentro evitar Y detección engañoso patrones dentro avance AI sistemas voluntad estar necesario tiene darse cuenta su beneficioso potencial, EL autores discutir.

VentureBeat asignación Este tiene estar A digital ciudad cuadrado para técnico Tomadores de decisiones tiene ganar conciencia a proposito transformador negocio tecnología Y para tratar. Descubrir NUESTRO Sesiones informativas.