Una nueva técnica puede acelerar los modelos de lenguaje 300 veces

Están Tú listo tiene traer Más conciencia tiene su ¿marca? Considerar volverse A patrocinador para EL AI Impacto Recorrido. Aprender Más a proposito EL oportunidades aquí.

Investigadores tiene ETH Zúrich haber desarrollado A nuevo técnico eso puede significativamente refuerzo EL velocidad de neural redes. Tienen demostrado eso Editar EL inferencia proceso puede radicalmente cortar hacia abajo EL Ciencias de la Computación requisitos de estos redes.

Dentro experiencias condujo seguro BERTE, A transformador modelo empleado dentro diverso lengua Tareas, ellos alcanzó A asombroso reducción de seguro 99% dentro cálculos. Este innovador técnico puede también estar aplicado tiene transformador modelos usado dentro grande lengua modelos como GPT-3, apertura en alto nuevo posibilidades para más rápido, Más eficaz lengua tratamiento.
Rápido comentario redes
transformadores, EL neural redes subyacente grande lengua modelos, están Comprendido de diverso capas, incluído atención capas Y comentario capas. EL último, contabilidad para A sustancial parte de EL modelos configuraciones, están informáticamente demandante pendiente tiene EL necesidad de calculadora EL producto de todo neuronas Y para ingresar dimensiones.

Sin embargo, EL investigadores papel Reloj eso no todo neuronas dentro EL comentario capas necesidad tiene estar activo durante EL inferencia proceso para cada para ingresar. Ellos para proponer EL introducción de "rápido comentario " capas (FFF) como A reemplazo para tradicional comentario capas.
V. B. Evento
EL AI Impacto Visita

Conectar con EL negocio AI comunidad tiene VentureBeat AI Impacto Recorrido futuro tiene A ciudad cerca ¡tú!
Aprender Más
FFF usos A matemático operación conocido como condicional matriz multiplicación (MMC), cual reemplaza EL denso matriz multiplicaciones (SEÑORA) usado por convencional comentario redes.

Dentro multímetro digital, todo para ingresar configuraciones están multiplicado por todo EL de la red neuronas, A proceso eso Este los dos informáticamente intensivo Y ineficaz. Seguro EL otro mano, TMM manejas inferencia dentro A camino eso No para ingresar necesita Más eso A manejar de neuronas para tratamiento por EL red.

Por Identificar EL derecha neuronas para cada cálculo, FFF puede significativamente reducir EL Ciencias de la Computación Cargar, principal tiene más rápido Y Más eficaz lengua modelos.
Rápido comentario redes dentro acción
TIENE validar su innovador técnico, EL investigadores desarrollado rápidoBERT, A modificación de el de google BERTE transformador modelo. RápidoBERT revoluciona EL modelo por reemplazar EL intermedio comentario capas con rápido comentario capas. FFF organizar su neuronas dentro A balance binario ÁRBOL, ejecución solamente A bifurcar condicionalmente base seguro EL entrada.

TIENE evaluar RápidoBERT rendimiento, EL investigadores refinado diferente variantes seguro varios Tareas desde EL General Lengua Comprensión Valoración (PEGAMENTO) referencia. PEGAMENTO Este A completo recopilación de conjuntos de datos diseñado para capacitación, evaluar, Y analizando natural lengua comprensión sistemas.

EL resultados eran impresionante, con RápidoBERT llevar a cabo de manera comparable tiene base BERTE modelos de similar tamaño Y capacitación procedimientos. Variantes de rápidoBERT, cualificado para justo A día seguro A soltera A6000 GPU, retenido tiene menos 96,0% de EL original BERTE modelos rendimiento. Observó...

Inauguración Nov 25, 2023 0 10 Add to Reading List

Una nueva técnica puede acelerar los modelos de lenguaje 300 veces

Están Tú listo tiene traer Más conciencia tiene su ¿marca? Considerar volverse A patrocinador para EL AI Impacto Recorrido. Aprender Más a proposito EL oportunidades aquí.

Investigadores tiene ETH Zúrich haber desarrollado A nuevo técnico eso puede significativamente refuerzo EL velocidad de neural redes. Tienen demostrado eso Editar EL inferencia proceso puede radicalmente cortar hacia abajo EL Ciencias de la Computación requisitos de estos redes.

Dentro experiencias condujo seguro BERTE, A transformador modelo empleado dentro diverso lengua Tareas, ellos alcanzó A asombroso reducción de seguro 99% dentro cálculos. Este innovador técnico puede también estar aplicado tiene transformador modelos usado dentro grande lengua modelos como GPT-3, apertura en alto nuevo posibilidades para más rápido, Más eficaz lengua tratamiento.

Rápido comentario redes

transformadores, EL neural redes subyacente grande lengua modelos, están Comprendido de diverso capas, incluído atención capas Y comentario capas. EL último, contabilidad para A sustancial parte de EL modelos configuraciones, están informáticamente demandante pendiente tiene EL necesidad de calculadora EL producto de todo neuronas Y para ingresar dimensiones.

Sin embargo, EL investigadores papel Reloj eso no todo neuronas dentro EL comentario capas necesidad tiene estar activo durante EL inferencia proceso para cada para ingresar. Ellos para proponer EL introducción de "rápido comentario " capas (FFF) como A reemplazo para tradicional comentario capas.

V. B. Evento

EL AI Impacto Visita

Conectar con EL negocio AI comunidad tiene VentureBeat AI Impacto Recorrido futuro tiene A ciudad cerca ¡tú!

Aprender Más

FFF usos A matemático operación conocido como condicional matriz multiplicación (MMC), cual reemplaza EL denso matriz multiplicaciones (SEÑORA) usado por convencional comentario redes.

Dentro multímetro digital, todo para ingresar configuraciones están multiplicado por todo EL de la red neuronas, A proceso eso Este los dos informáticamente intensivo Y ineficaz. Seguro EL otro mano, TMM manejas inferencia dentro A camino eso No para ingresar necesita Más eso A manejar de neuronas para tratamiento por EL red.

Por Identificar EL derecha neuronas para cada cálculo, FFF puede significativamente reducir EL Ciencias de la Computación Cargar, principal tiene más rápido Y Más eficaz lengua modelos.

Rápido comentario redes dentro acción

TIENE validar su innovador técnico, EL investigadores desarrollado rápidoBERT, A modificación de el de google BERTE transformador modelo. RápidoBERT revoluciona EL modelo por reemplazar EL intermedio comentario capas con rápido comentario capas. FFF organizar su neuronas dentro A balance binario ÁRBOL, ejecución solamente A bifurcar condicionalmente base seguro EL entrada.

TIENE evaluar RápidoBERT rendimiento, EL investigadores refinado diferente variantes seguro varios Tareas desde EL General Lengua Comprensión Valoración (PEGAMENTO) referencia. PEGAMENTO Este A completo recopilación de conjuntos de datos diseñado para capacitación, evaluar, Y analizando natural lengua comprensión sistemas.

EL resultados eran impresionante, con RápidoBERT llevar a cabo de manera comparable tiene base BERTE modelos de similar tamaño Y capacitación procedimientos. Variantes de rápidoBERT, cualificado para justo A día seguro A soltera A6000 GPU, retenido tiene menos 96,0% de EL original BERTE modelos rendimiento. Observó...