يعد برنامج ترميز الصوت المدعوم بالذكاء الاصطناعي من Meta بضغط 10 مرات على MP3

تمثيل توضيحي من البيانات في موجة صوتية. تكبير / تمثيل تصويري للبيانات في موجة صوتية. ميتا AI

في الأسبوع الماضي ، أعلنت Meta عن طريقة لضغط الصوت مدعومة بالذكاء الاصطناعي تسمى "EnCodec" يمكنها ضغط الصوت 10 مرات أصغر من MP3 إلى 64 كيلو بت في الثانية دون فقدان الجودة. يقول ميتا إن هذه التقنية يمكن أن تحسن بشكل كبير جودة الصوت في الكلام عبر اتصالات النطاق الترددي المنخفض ، مثل المكالمات الهاتفية في المناطق التي بها خدمة متقطعة. تعمل هذه التقنية أيضًا مع الموسيقى.

أطلقت Meta التقنية لأول مرة في 25 أكتوبر في مقال بعنوان "ضغط الصوت العصبي عالي الدقة" بقلم باحثو Meta AI ألكسندر ديفوسيز وجيد كوبت وغابرييل سينيفي ويوسي آدي. كما لخصت Meta البحث على مدونة EnCodec الخاصة بها.

تدعي Meta أن برنامج التشفير / وحدة فك التشفير الصوتي الجديد يمكنه ضغط الصوت 10 مرات أصغر من MP3. تدعي شركة "تكبير / ميتا" أن وحدة ترميز / فك ترميز الصوت الجديدة يمكنها ضغط الصوت 10 مرات أصغر من MP3. ميتا AI

يصف Meta طريقته على أنها نظام مكون من ثلاثة أجزاء مدرب لضغط الصوت إلى الحجم المستهدف المطلوب. أولاً ، يحول المشفر البيانات غير المضغوطة إلى تمثيل "مساحة كامنة" بمعدل إطارات أقل. ثم يضغط "المُكَمِم" التمثيل إلى حجم الهدف مع تتبع أهم المعلومات التي سيتم استخدامها لاحقًا لإعادة بناء الإشارة الأصلية. (هذه الإشارة المضغوطة هي التي يتم إرسالها عبر الشبكة أو حفظها على القرص.) وأخيرًا ، تقوم وحدة فك التشفير بتحويل البيانات المضغوطة إلى صوت في الوقت الفعلي باستخدام شبكة عصبية على معالج واحد. >

مخطط كتلة يوضح كيفية عمل ضغط EnCodec في Meta. تكبير / رسم تخطيطي يوضح كيفية عمل ضغط Meta EnCodec. ميتا AI

يعد استخدام Meta لأدوات التمييز أمرًا بالغ الأهمية لإنشاء طريقة لضغط الصوت قدر الإمكان دون فقد العناصر الأساسية للإشارة التي تجعلها مميزة ويمكن التعرف عليها:

"إن مفتاح الضغط مع فقد البيانات هو تحديد التغييرات التي لن تكون مرئية للبشر ، نظرًا لأن إعادة البناء المثالية مستحيلة بمعدلات بت منخفضة. للقيام بذلك ، نستخدم أدوات التمييز لتحسين الجودة الإدراكية للعينات التي تم إنشاؤها. وهذا يؤدي إلى إنشاء لعبة من القط والفأر حيث تتمثل وظيفة أداة التمييز في معرفة الفرق بين العينات الحقيقية والعينات المعاد بناؤها. يحاول نموذج الضغط إنشاء عينات لخداع المميّزين لدفع العينات المعاد بناؤها بحيث تكون أكثر تشابهًا من الناحية الإدراكية مع العينات الأصلية عينات. "

تجدر الإشارة إلى أن استخدام الشبكة العصبية لضغط الصوت وإلغاء الضغط هو

يعد برنامج ترميز الصوت المدعوم بالذكاء الاصطناعي من Meta بضغط 10 مرات على MP3
تمثيل توضيحي من البيانات في موجة صوتية. تكبير / تمثيل تصويري للبيانات في موجة صوتية. ميتا AI

في الأسبوع الماضي ، أعلنت Meta عن طريقة لضغط الصوت مدعومة بالذكاء الاصطناعي تسمى "EnCodec" يمكنها ضغط الصوت 10 مرات أصغر من MP3 إلى 64 كيلو بت في الثانية دون فقدان الجودة. يقول ميتا إن هذه التقنية يمكن أن تحسن بشكل كبير جودة الصوت في الكلام عبر اتصالات النطاق الترددي المنخفض ، مثل المكالمات الهاتفية في المناطق التي بها خدمة متقطعة. تعمل هذه التقنية أيضًا مع الموسيقى.

أطلقت Meta التقنية لأول مرة في 25 أكتوبر في مقال بعنوان "ضغط الصوت العصبي عالي الدقة" بقلم باحثو Meta AI ألكسندر ديفوسيز وجيد كوبت وغابرييل سينيفي ويوسي آدي. كما لخصت Meta البحث على مدونة EnCodec الخاصة بها.

تدعي Meta أن برنامج التشفير / وحدة فك التشفير الصوتي الجديد يمكنه ضغط الصوت 10 مرات أصغر من MP3. تدعي شركة "تكبير / ميتا" أن وحدة ترميز / فك ترميز الصوت الجديدة يمكنها ضغط الصوت 10 مرات أصغر من MP3. ميتا AI

يصف Meta طريقته على أنها نظام مكون من ثلاثة أجزاء مدرب لضغط الصوت إلى الحجم المستهدف المطلوب. أولاً ، يحول المشفر البيانات غير المضغوطة إلى تمثيل "مساحة كامنة" بمعدل إطارات أقل. ثم يضغط "المُكَمِم" التمثيل إلى حجم الهدف مع تتبع أهم المعلومات التي سيتم استخدامها لاحقًا لإعادة بناء الإشارة الأصلية. (هذه الإشارة المضغوطة هي التي يتم إرسالها عبر الشبكة أو حفظها على القرص.) وأخيرًا ، تقوم وحدة فك التشفير بتحويل البيانات المضغوطة إلى صوت في الوقت الفعلي باستخدام شبكة عصبية على معالج واحد. >

مخطط كتلة يوضح كيفية عمل ضغط EnCodec في Meta. تكبير / رسم تخطيطي يوضح كيفية عمل ضغط Meta EnCodec. ميتا AI

يعد استخدام Meta لأدوات التمييز أمرًا بالغ الأهمية لإنشاء طريقة لضغط الصوت قدر الإمكان دون فقد العناصر الأساسية للإشارة التي تجعلها مميزة ويمكن التعرف عليها:

"إن مفتاح الضغط مع فقد البيانات هو تحديد التغييرات التي لن تكون مرئية للبشر ، نظرًا لأن إعادة البناء المثالية مستحيلة بمعدلات بت منخفضة. للقيام بذلك ، نستخدم أدوات التمييز لتحسين الجودة الإدراكية للعينات التي تم إنشاؤها. وهذا يؤدي إلى إنشاء لعبة من القط والفأر حيث تتمثل وظيفة أداة التمييز في معرفة الفرق بين العينات الحقيقية والعينات المعاد بناؤها. يحاول نموذج الضغط إنشاء عينات لخداع المميّزين لدفع العينات المعاد بناؤها بحيث تكون أكثر تشابهًا من الناحية الإدراكية مع العينات الأصلية عينات. "

تجدر الإشارة إلى أن استخدام الشبكة العصبية لضغط الصوت وإلغاء الضغط هو

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow