ИИ Riffusion генерирует музыку из текста, используя визуальные сонограммы

Увеличить / Созданное ИИ изображение музыкальных нот, вырывающихся из экрана компьютера. Арс-Техника
В четверг два технических энтузиаста выпустили Riffusion, модель искусственного интеллекта, которая генерирует музыку из текстовых подсказок, создавая визуальное представление звука и преобразовывая его в звук для воспроизведения. Он использует усовершенствованную версию модели синтеза изображений Stable Diffusion 1.5, по-новому применяя визуальную скрытую диффузию к обработке звука.

Созданная Сетом Форсгреном и Хайком Мартиросом в качестве хобби, Riffusion работает путем создания сонограмм, которые сохраняют звук в двухмерном изображении. На сонограмме ось X представляет время (порядок воспроизведения частот слева направо), а ось Y представляет частоту звуков. При этом цвет каждого пикселя изображения представляет собой амплитуду звука в данный конкретный момент.

Поскольку сонограмма — это тип изображения, Stable Diffusion может с ней справиться. Форсгрен и Мартирос обучили пользовательскую модель стабильной диффузии с помощью образцов сонограмм, связанных с описаниями звуков или музыкальных жанров, которые они представляли. Обладая этими знаниями, Riffusion может генерировать новую музыку на лету на основе текстовых подсказок, описывающих тип музыки или звука, который вы хотите услышать, например "джаз", "рок" или даже ввод текста на клавиатуре.

После создания изображения сонограммы Riffusion использует Torchaudio, чтобы преобразовать сонограмму в звук, воспроизводя ее как звук.

Увеличить / Сонограмма представляет время, частоту и амплитуду в двухмерном изображении. распространение
«Это стабильная модель рассеяния версии 1.5 без модификаций, просто настроенная на изображения спектрограммы в сочетании с текстом», — пишут создатели Riffusion на странице объяснения. «Он может генерировать бесконечные вариации подсказки, меняя начальное значение. Все те же веб-интерфейс и методы, такие как img2img, рисование, отрицательные подсказки и интерполяция, работают по умолчанию».

Посетители веб-сайта Riffusion могут ознакомиться с моделью искусственного интеллекта через интерактивное веб-приложение, которое генерирует интерполированные сонограммы (гладко сшитые вместе для непрерывного воспроизведения) в режиме реального времени, постоянно просматривая спектрограмму в левой части страницы.< /p>
Увеличить / Скриншот веб-сайта Riffusion, на котором можно вводить подсказки и прослушивать полученные сонограммы.

Технологии Dec 17, 2022 0 54 Add to Reading List

ИИ Riffusion генерирует музыку из текста, используя визуальные сонограммы

AI- сгенерированное изображение музыкальных нот, вырывающихся из экрана компьютера.

В четверг два технических энтузиаста выпустили Riffusion, модель искусственного интеллекта, которая генерирует музыку из текстовых подсказок, создавая визуальное представление звука и преобразовывая его в звук для воспроизведения. Он использует усовершенствованную версию модели синтеза изображений Stable Diffusion 1.5, по-новому применяя визуальную скрытую диффузию к обработке звука.

Созданная Сетом Форсгреном и Хайком Мартиросом в качестве хобби, Riffusion работает путем создания сонограмм, которые сохраняют звук в двухмерном изображении. На сонограмме ось X представляет время (порядок воспроизведения частот слева направо), а ось Y представляет частоту звуков. При этом цвет каждого пикселя изображения представляет собой амплитуду звука в данный конкретный момент.

Поскольку сонограмма — это тип изображения, Stable Diffusion может с ней справиться. Форсгрен и Мартирос обучили пользовательскую модель стабильной диффузии с помощью образцов сонограмм, связанных с описаниями звуков или музыкальных жанров, которые они представляли. Обладая этими знаниями, Riffusion может генерировать новую музыку на лету на основе текстовых подсказок, описывающих тип музыки или звука, который вы хотите услышать, например "джаз", "рок" или даже ввод текста на клавиатуре.

После создания изображения сонограммы Riffusion использует Torchaudio, чтобы преобразовать сонограмму в звук, воспроизводя ее как звук.

Сонограмма представляет время, частоту и амплитуду в двумерном изображении.

«Это стабильная модель рассеяния версии 1.5 без модификаций, просто настроенная на изображения спектрограммы в сочетании с текстом», — пишут создатели Riffusion на странице объяснения. «Он может генерировать бесконечные вариации подсказки, меняя начальное значение. Все те же веб-интерфейс и методы, такие как img2img, рисование, отрицательные подсказки и интерполяция, работают по умолчанию».

Посетители веб-сайта Riffusion могут ознакомиться с моделью искусственного интеллекта через интерактивное веб-приложение, которое генерирует интерполированные сонограммы (гладко сшитые вместе для непрерывного воспроизведения) в режиме реального времени, постоянно просматривая спектрограмму в левой части страницы.< /p>