Hola Alexa, ¿qué sigue? Rompiendo el techo de la tecnología de voz

Únase a altos ejecutivos en San Francisco los días 11 y 12 de julio para conocer cómo los líderes están integrando y optimizando las inversiones en IA para lograr el éxito. Más información

El reciente anuncio de Amazon de que reduciría el personal y el presupuesto del departamento de Alexa calificó al asistente de voz como un "fracaso colosal". A raíz de esto, ha habido discusiones de que la voz como industria está estancada (o peor aún, en declive).

Tengo que decir que no estoy de acuerdo.

Si bien es cierto que esta voz ha tocado techo en casos de uso, eso no equivale a estancamiento. Simplemente significa que el estado actual de la tecnología tiene algunas limitaciones que es importante entender si queremos que evolucione.

En pocas palabras, las tecnologías actuales no funcionan de una manera que cumpla con la norma humana. Para hacer esto, se necesitan tres características:

Evento

Transformar 2023

Únase a nosotros en San Francisco los días 11 y 12 de julio, donde los altos ejecutivos hablarán sobre cómo han integrado y optimizado las inversiones en IA para lograr el éxito y cómo evitar errores comunes.

Regístrate ahora Comprensión superior del lenguaje natural (NLU): hay muchas buenas empresas que han conquistado este aspecto. Las capacidades tecnológicas son tales que pueden entender lo que dices y conocer las formas habituales en que las personas pueden decir lo que quieran. Por ejemplo, si dices "Me gustaría una hamburguesa con cebolla", sabe que quieres las cebollas en la hamburguesa, no en una bolsa separada. Extracción de metadatos de voz: la tecnología de voz debería poder determinar si un orador está feliz o frustrado, qué tan lejos está del micrófono y su identidad y cuentas. Necesita reconocer la voz lo suficientemente bien como para saber cuándo usted o alguien más está hablando. Superar la diafonía y el ruido no conectado: la capacidad de comprender en presencia de diafonía incluso cuando otras personas están hablando y cuando hay ruidos (tráfico, música, balbuceos) a los que no se puede acceder de forma independiente a los algoritmos de cancelación de ruido.

Algunas empresas obtienen los dos primeros. Estas soluciones generalmente están diseñadas para funcionar en entornos de sonido que asumen que hay un solo altavoz con la mayor parte del ruido de fondo cancelado. Sin embargo, en un lugar público típico con múltiples fuentes de ruido, esta es una suposición discutible.

Alcanzando el "santo grial" de la tecnología de voz

También es importante tomarse un momento para explicar a qué me refiero con ruido que puede y no puede cancelarse. El ruido al que tiene acceso independiente (ruido conectado) se puede cancelar. Por ejemplo, los automóviles equipados con control por voz tienen acceso electrónico independiente (a través de un servicio de transmisión) al contenido que se reproduce a través de los parlantes del automóvil.

Este acceso garantiza que la versión acústica de este contenido, tal como se captura en los micrófonos, se puede cancelar mediante algoritmos bien establecidos. Sin embargo, el sistema no tiene acceso electrónico independiente al contenido hablado por los pasajeros en el automóvil. Eso es lo que yo llamo ruido desapegado, y no se puede deshacer.

Es por eso que la tercera habilidad...

Hola Alexa, ¿qué sigue? Rompiendo el techo de la tecnología de voz

Únase a altos ejecutivos en San Francisco los días 11 y 12 de julio para conocer cómo los líderes están integrando y optimizando las inversiones en IA para lograr el éxito. Más información

El reciente anuncio de Amazon de que reduciría el personal y el presupuesto del departamento de Alexa calificó al asistente de voz como un "fracaso colosal". A raíz de esto, ha habido discusiones de que la voz como industria está estancada (o peor aún, en declive).

Tengo que decir que no estoy de acuerdo.

Si bien es cierto que esta voz ha tocado techo en casos de uso, eso no equivale a estancamiento. Simplemente significa que el estado actual de la tecnología tiene algunas limitaciones que es importante entender si queremos que evolucione.

En pocas palabras, las tecnologías actuales no funcionan de una manera que cumpla con la norma humana. Para hacer esto, se necesitan tres características:

Evento

Transformar 2023

Únase a nosotros en San Francisco los días 11 y 12 de julio, donde los altos ejecutivos hablarán sobre cómo han integrado y optimizado las inversiones en IA para lograr el éxito y cómo evitar errores comunes.

Regístrate ahora Comprensión superior del lenguaje natural (NLU): hay muchas buenas empresas que han conquistado este aspecto. Las capacidades tecnológicas son tales que pueden entender lo que dices y conocer las formas habituales en que las personas pueden decir lo que quieran. Por ejemplo, si dices "Me gustaría una hamburguesa con cebolla", sabe que quieres las cebollas en la hamburguesa, no en una bolsa separada. Extracción de metadatos de voz: la tecnología de voz debería poder determinar si un orador está feliz o frustrado, qué tan lejos está del micrófono y su identidad y cuentas. Necesita reconocer la voz lo suficientemente bien como para saber cuándo usted o alguien más está hablando. Superar la diafonía y el ruido no conectado: la capacidad de comprender en presencia de diafonía incluso cuando otras personas están hablando y cuando hay ruidos (tráfico, música, balbuceos) a los que no se puede acceder de forma independiente a los algoritmos de cancelación de ruido.

Algunas empresas obtienen los dos primeros. Estas soluciones generalmente están diseñadas para funcionar en entornos de sonido que asumen que hay un solo altavoz con la mayor parte del ruido de fondo cancelado. Sin embargo, en un lugar público típico con múltiples fuentes de ruido, esta es una suposición discutible.

Alcanzando el "santo grial" de la tecnología de voz

También es importante tomarse un momento para explicar a qué me refiero con ruido que puede y no puede cancelarse. El ruido al que tiene acceso independiente (ruido conectado) se puede cancelar. Por ejemplo, los automóviles equipados con control por voz tienen acceso electrónico independiente (a través de un servicio de transmisión) al contenido que se reproduce a través de los parlantes del automóvil.

Este acceso garantiza que la versión acústica de este contenido, tal como se captura en los micrófonos, se puede cancelar mediante algoritmos bien establecidos. Sin embargo, el sistema no tiene acceso electrónico independiente al contenido hablado por los pasajeros en el automóvil. Eso es lo que yo llamo ruido desapegado, y no se puede deshacer.

Es por eso que la tercera habilidad...

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow