Краще за JPEG? Дослідник виявив, що стабільна дифузія може стискати зображення

Збільшити / Ці зубчасті кольорові блоки – це саме те, як виглядає концепція стиснення зображення. Бендж Едвардс / Ars Technica
Минулого тижня швейцарський інженер-програміст Маттіас Бюльманн виявив, що популярна модель синтезу зображень Stable Diffusion може стискати наявні растрові зображення з меншою кількістю візуальних артефактів, ніж JPEG або WebP, із вищим рівнем стиснення, хоча є важливі застереження.
Stable Diffusion — це модель синтезу зображень штучного інтелекту, яка зазвичай генерує зображення на основі текстових описів (так звані «підказки»). ШІ-модель навчилася цій здатності, вивчаючи мільйони зображень, взятих з Інтернету. Під час процесу навчання модель створює статистичні асоціації між зображеннями та пов’язаними словами, створюючи набагато менше представлення ключової інформації про кожне зображення та зберігаючи її як «ваги», які є математичними значеннями, які представляють те, що знає модель зображення ШІ, так би мовити.

Коли Stable Diffusion аналізує та «стискає» зображення як ваги, вони перебувають у тому, що дослідники називають «латентним простором», що означає, що вони існують як свого роду нечіткий потенціал, який може бути реалізований у зображеннях, коли вони створені. розшифровано. У Stable Diffusion 1.4 файл ваги становить приблизно 4 ГБ, але він представляє інформацію про сотні мільйонів зображень.

Збільшити / Приклади використання Stable Diffusion для стиснення зображень.
Хоча більшість людей використовують Stable Diffusion із текстовими підказками, Бюльманн вирізав текстовий кодувальник і натомість примусово пропускав свої зображення через процес кодування зображень Stable Diffusion, який бере низькоточне зображення 512×512 і перетворює його на більш точне представлення латентного простору 64×64. На даний момент зображення існує зі значно меншим розміром даних, ніж оригінал, але його все одно можна збільшити (декодувати) до зображення 512 × 512 із досить хорошими результатами.

Під час проведення тестів Бюльман виявив, що нове зображення, стиснуте за допомогою Stable Diffusion, суб’єктивно виглядає краще за вищих рівнів стиснення (менший розмір файлу), ніж JPEG або WebP. В одному прикладі показано фотографію лами (спочатку 768 КБ), яка була стиснута до 5,68 КБ за допомогою JPEG, 5,71 КБ за допомогою WebP і 4,98 КБ за допомогою Stable Diffusion. Здається, що стабільне широкомовне зображення має більш чіткі деталі та менш очевидні артефакти стиснення, ніж зображення, стиснене в інших форматах.

Збільшити / Експериментальні приклади використання стабільної дифузії для стиснення зображень. Результати SD наведені праворуч.

технології Sep 28, 2022 0 37 Add to Reading List

Краще за JPEG? Дослідник виявив, що стабільна дифузія може стискати зображення

Минулого тижня швейцарський інженер-програміст Маттіас Бюльманн виявив, що популярна модель синтезу зображень Stable Diffusion може стискати наявні растрові зображення з меншою кількістю візуальних артефактів, ніж JPEG або WebP, із вищим рівнем стиснення, хоча є важливі застереження.

Stable Diffusion — це модель синтезу зображень штучного інтелекту, яка зазвичай генерує зображення на основі текстових описів (так звані «підказки»). ШІ-модель навчилася цій здатності, вивчаючи мільйони зображень, взятих з Інтернету. Під час процесу навчання модель створює статистичні асоціації між зображеннями та пов’язаними словами, створюючи набагато менше представлення ключової інформації про кожне зображення та зберігаючи її як «ваги», які є математичними значеннями, які представляють те, що знає модель зображення ШІ, так би мовити.

Коли Stable Diffusion аналізує та «стискає» зображення як ваги, вони перебувають у тому, що дослідники називають «латентним простором», що означає, що вони існують як свого роду нечіткий потенціал, який може бути реалізований у зображеннях, коли вони створені. розшифровано. У Stable Diffusion 1.4 файл ваги становить приблизно 4 ГБ, але він представляє інформацію про сотні мільйонів зображень.

Приклади використання Stable Diffusion для стиснення зображень.

Хоча більшість людей використовують Stable Diffusion із текстовими підказками, Бюльманн вирізав текстовий кодувальник і натомість примусово пропускав свої зображення через процес кодування зображень Stable Diffusion, який бере низькоточне зображення 512×512 і перетворює його на більш точне представлення латентного простору 64×64. На даний момент зображення існує зі значно меншим розміром даних, ніж оригінал, але його все одно можна збільшити (декодувати) до зображення 512 × 512 із досить хорошими результатами.

Під час проведення тестів Бюльман виявив, що нове зображення, стиснуте за допомогою Stable Diffusion, суб’єктивно виглядає краще за вищих рівнів стиснення (менший розмір файлу), ніж JPEG або WebP. В одному прикладі показано фотографію лами (спочатку 768 КБ), яка була стиснута до 5,68 КБ за допомогою JPEG, 5,71 КБ за допомогою WebP і 4,98 КБ за допомогою Stable Diffusion. Здається, що стабільне широкомовне зображення має більш чіткі деталі та менш очевидні артефакти стиснення, ніж зображення, стиснене в інших форматах.