Erkennung eines schreienden Babys mit tinyML und synthetischen Daten

Wenn ein Baby weint, liegt es fast immer an etwas, das nicht in Ordnung ist, was Hunger, Durst, Bauchschmerzen oder zu viel Lärm beinhalten kann, aber nicht darauf beschränkt ist . In seinem Projekt demonstrierte Nurgaliyev Shakhizat, wie er ChatGPT-, Text-to-Audio- und TinyML-Technologien nutzen konnte, um ein Schreierkennungssystem zu erstellen, ohne dass er selbst reale Daten sammeln musste.

Der Prozess ist wie folgt: ChatGPT generiert eine Reihe von Textaufforderungen, die alle in irgendeiner Weise ein weinendes Baby beinhalten. Diese Eingabeaufforderungen werden dann an AudioLDM weitergeleitet, das auf der Grundlage der Eingabeaufforderungen Töne erzeugt. Schließlich nutzte Shakhizat die Machine-Learning-Tool-Integration von Arduino Cloud, unterstützt von Edge Impulse, um ein ML-Modell für die Bereitstellung auf einem Nicla Voice-Board zu trainieren. Um die Sounds selbst zu erzeugen, richtete Shakhizat eine virtuelle Python-Umgebung mit installiertem audioldm-Paket ein. Sein Skript nimmt die Liste der Eingabeaufforderungen, führt sie in einem AudioLDM-CLI-Befehl aus und speichert die generierten Sounddaten als WAV-Datei.

Sobald dieser Prozess abgeschlossen ist, hat er ein Projekt in Edge Impulse Studio eingerichtet, das ein Klassifikatormodell trainiert. Nach dem Training war das Ergebnis ein Modell, das in 90 % der Fälle genau zwischen Hintergrundgeräuschen und einem schreienden Baby unterscheiden konnte, und die Bereitstellung auf Nicla Voice zeigte die Effektivität der Verwendung der synthetischen und integrierten Modelle der Datensätze in der realen Welt.

Weitere Informationen finden Sie in Shakhizats Artikel hier auf Hackster.io.

Kategorien:NiclaNicla Stimme

Erkennung eines schreienden Babys mit tinyML und synthetischen Daten

Wenn ein Baby weint, liegt es fast immer an etwas, das nicht in Ordnung ist, was Hunger, Durst, Bauchschmerzen oder zu viel Lärm beinhalten kann, aber nicht darauf beschränkt ist . In seinem Projekt demonstrierte Nurgaliyev Shakhizat, wie er ChatGPT-, Text-to-Audio- und TinyML-Technologien nutzen konnte, um ein Schreierkennungssystem zu erstellen, ohne dass er selbst reale Daten sammeln musste.

Der Prozess ist wie folgt: ChatGPT generiert eine Reihe von Textaufforderungen, die alle in irgendeiner Weise ein weinendes Baby beinhalten. Diese Eingabeaufforderungen werden dann an AudioLDM weitergeleitet, das auf der Grundlage der Eingabeaufforderungen Töne erzeugt. Schließlich nutzte Shakhizat die Machine-Learning-Tool-Integration von Arduino Cloud, unterstützt von Edge Impulse, um ein ML-Modell für die Bereitstellung auf einem Nicla Voice-Board zu trainieren. Um die Sounds selbst zu erzeugen, richtete Shakhizat eine virtuelle Python-Umgebung mit installiertem audioldm-Paket ein. Sein Skript nimmt die Liste der Eingabeaufforderungen, führt sie in einem AudioLDM-CLI-Befehl aus und speichert die generierten Sounddaten als WAV-Datei.

Sobald dieser Prozess abgeschlossen ist, hat er ein Projekt in Edge Impulse Studio eingerichtet, das ein Klassifikatormodell trainiert. Nach dem Training war das Ergebnis ein Modell, das in 90 % der Fälle genau zwischen Hintergrundgeräuschen und einem schreienden Baby unterscheiden konnte, und die Bereitstellung auf Nicla Voice zeigte die Effektivität der Verwendung der synthetischen und integrierten Modelle der Datensätze in der realen Welt.

Weitere Informationen finden Sie in Shakhizats Artikel hier auf Hackster.io.

Kategorien:NiclaNicla Stimme

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow