Detección de palabras clave poco desordenadas para idiomas de bajos recursos con Nicla Voice

El reconocimiento de voz es omnipresente en estos días, pero algunos idiomas, como el kazajo nativo de Shakhizat Nurgaliyev y Askat Kuzdeuov, carecen de conjuntos de datos públicos lo suficientemente grandes como para entrenar las claves de los modelos de detección de palabras. Para compensar esta disparidad, el dúo exploró la generación de conjuntos de datos sintéticos mediante un sistema neuronal de conversión de texto a voz llamado Piper y, a continuación, la extracción de comandos de voz del audio con las herramientas de reconocimiento de voz del kit Vosk.

Más allá de simplemente crear un modelo para reconocer palabras clave a partir de muestras de audio, el objetivo principal de Nurgaliyev y Kuzdeuov también era implementarlo en un objetivo integrado, como una placa única de computadora o un microcontrolador. Al final, se decidieron por la placa de desarrollo Arduino Nicla Voice porque no solo contiene un SoC nRF52832, un micrófono y una IMU, sino también un NDP120 de Syntiant. Este procesador de decisión neuronal especializado ayuda a acelerar drásticamente los tiempos de inferencia a través de aceleradores de hardware dedicados y, al mismo tiempo, reduce el consumo de energía.

Una vez que se seleccionó el hardware, el equipo comenzó a entrenar su modelo con un total de 20,25 horas de datos de voz generados que abarcan 28 clases de salida distintas. Después de 100 épocas de entrenamiento, logró una precisión del 95,5 % y solo consumió unos 540 KB de memoria en el NDP120, lo que lo hace bastante eficiente.

Para obtener más información sobre el proyecto de Nurgaliyev y Kuzdeuov y cómo implementaron un modelo de aprendizaje automático integrado entrenado únicamente en datos de voz generados, consulte su artículo aquí en Hackster.io.
Categorías:NiclaNicla Voz

Tecnología Jul 11, 2023 0 17 Add to Reading List

Detección de palabras clave poco desordenadas para idiomas de bajos recursos con Nicla Voice

El reconocimiento de voz es omnipresente en estos días, pero algunos idiomas, como el kazajo nativo de Shakhizat Nurgaliyev y Askat Kuzdeuov, carecen de conjuntos de datos públicos lo suficientemente grandes como para entrenar las claves de los modelos de detección de palabras. Para compensar esta disparidad, el dúo exploró la generación de conjuntos de datos sintéticos mediante un sistema neuronal de conversión de texto a voz llamado Piper y, a continuación, la extracción de comandos de voz del audio con las herramientas de reconocimiento de voz del kit Vosk.

Más allá de simplemente crear un modelo para reconocer palabras clave a partir de muestras de audio, el objetivo principal de Nurgaliyev y Kuzdeuov también era implementarlo en un objetivo integrado, como una placa única de computadora o un microcontrolador. Al final, se decidieron por la placa de desarrollo Arduino Nicla Voice porque no solo contiene un SoC nRF52832, un micrófono y una IMU, sino también un NDP120 de Syntiant. Este procesador de decisión neuronal especializado ayuda a acelerar drásticamente los tiempos de inferencia a través de aceleradores de hardware dedicados y, al mismo tiempo, reduce el consumo de energía.

Una vez que se seleccionó el hardware, el equipo comenzó a entrenar su modelo con un total de 20,25 horas de datos de voz generados que abarcan 28 clases de salida distintas. Después de 100 épocas de entrenamiento, logró una precisión del 95,5 % y solo consumió unos 540 KB de memoria en el NDP120, lo que lo hace bastante eficiente.

Para obtener más información sobre el proyecto de Nurgaliyev y Kuzdeuov y cómo implementaron un modelo de aprendizaje automático integrado entrenado únicamente en datos de voz generados, consulte su artículo aquí en Hackster.io.

Categorías:NiclaNicla Voz