Аудіокодек Meta на основі штучного інтелекту обіцяє 10-кратне стиснення MP3

Масштабування / Зображуване представлення даних у звуковій хвилі. Мета ШІ
Минулого тижня Meta анонсувала метод стиснення аудіо на основі штучного інтелекту під назвою «EnCodec», який може стискати аудіо в 10 разів менше, ніж MP3, до 64 Кбіт/с без втрати якості. Meta каже, що ця техніка може значно покращити якість звуку мовлення через з’єднання з низькою пропускною здатністю, такі як телефонні дзвінки в районах з нерівним обслуговуванням. Техніка також працює для музики.

Meta представила цю технологію 25 жовтня у статті під назвою «High Fidelity Neural Audio Compression», написаній дослідниками Meta AI Александром Дефоссезом, Джейд Копет, Габріелем Сіннев та Йоссі Аді. Meta також підсумувала дослідження у своєму блозі EnCodec.

Enlarge / Meta стверджує, що його новий аудіокодер/декодер може стискати аудіо в 10 разів менше, ніж MP3. Мета ШІ
Meta описує свій метод як систему з трьох частин, навчену стискати аудіо до бажаного розміру. По-перше, кодер перетворює нестиснуті дані в представлення «прихованого простору» з нижчою частотою кадрів. Потім «квантувач» стискає представлення до цільового розміру, зберігаючи при цьому найважливішу інформацію, яка буде використана пізніше для реконструкції вихідного сигналу. (Цей стислий сигнал надсилається через мережу або зберігається на диску.) Нарешті, декодер перетворює стислі дані в аудіо в реальному часі за допомогою нейронної мережі на одному процесорі.
>
Збільшити / Блок-схема, що ілюструє, як працює стиснення Meta EnCodec. Мета ШІ
Використання дискримінаторів Meta має вирішальне значення для створення методу максимально можливого стиснення звуку без втрати ключових елементів сигналу, які роблять його відмінним і впізнаваним:

"Ключ до стиснення з втратами полягає в тому, щоб визначити зміни, які не будуть помітні людині, оскільки ідеальна реконструкція неможлива за низьких бітрейтів. Для цього ми використовуємо дискримінатори, щоб покращити якість сприйняття згенерованих зразків. Це створює гру кота і мишки, де робота дискримінатора полягає в тому, щоб визначити різницю між реальними зразками та реконструйованими зразками. Модель стиснення намагається створити зразки, щоб обманом змусити дискримінатори підштовхнути реконструйовані зразки, щоб вони були більш сприйнятливо схожими на оригінальні. зразки."
Слід зазначити, що використання нейронної мережі для стиснення та декомпресії аудіо є

технології Nov 2, 2022 0 43 Add to Reading List

Аудіокодек Meta на основі штучного інтелекту обіцяє 10-кратне стиснення MP3

Ілюстроване зображення даних у звуковій хвилі.

Минулого тижня Meta анонсувала метод стиснення аудіо на основі штучного інтелекту під назвою «EnCodec», який може стискати аудіо в 10 разів менше, ніж MP3, до 64 Кбіт/с без втрати якості. Meta каже, що ця техніка може значно покращити якість звуку мовлення через з’єднання з низькою пропускною здатністю, такі як телефонні дзвінки в районах з нерівним обслуговуванням. Техніка також працює для музики.

Meta представила цю технологію 25 жовтня у статті під назвою «High Fidelity Neural Audio Compression», написаній дослідниками Meta AI Александром Дефоссезом, Джейд Копет, Габріелем Сіннев та Йоссі Аді. Meta також підсумувала дослідження у своєму блозі EnCodec.

Meta стверджує, що її новий аудіокодер/декодер може стискати аудіо в 10 разів менше, ніж MP3.

Meta описує свій метод як систему з трьох частин, навчену стискати аудіо до бажаного розміру. По-перше, кодер перетворює нестиснуті дані в представлення «прихованого простору» з нижчою частотою кадрів. Потім «квантувач» стискає представлення до цільового розміру, зберігаючи при цьому найважливішу інформацію, яка буде використана пізніше для реконструкції вихідного сигналу. (Цей стислий сигнал надсилається через мережу або зберігається на диску.) Нарешті, декодер перетворює стислі дані в аудіо в реальному часі за допомогою нейронної мережі на одному процесорі.

Блок-схема, що ілюструє, як працює стиснення Meta EnCodec.

Використання дискримінаторів Meta має вирішальне значення для створення методу максимально можливого стиснення звуку без втрати ключових елементів сигналу, які роблять його відмінним і впізнаваним:

"Ключ до стиснення з втратами полягає в тому, щоб визначити зміни, які не будуть помітні людині, оскільки ідеальна реконструкція неможлива за низьких бітрейтів. Для цього ми використовуємо дискримінатори, щоб покращити якість сприйняття згенерованих зразків. Це створює гру кота і мишки, де робота дискримінатора полягає в тому, щоб визначити різницю між реальними зразками та реконструйованими зразками. Модель стиснення намагається створити зразки, щоб обманом змусити дискримінатори підштовхнути реконструйовані зразки, щоб вони були більш сприйнятливо схожими на оригінальні. зразки."

Слід зазначити, що використання нейронної мережі для стиснення та декомпресії аудіо є