هذا الصوت غير موجود - Generative Voice AI

audio-thumbnail

استمع إلى هذه القصة 0:00

/ 7:13

في الآونة الأخيرة ، يبدو أن الجميع يتحدثون عن الذكاء الاصطناعي التوليدي. تسببت نماذج اللغة والنص إلى صورة المبنية على التعلم العميق مثل ChatGPT و Stable Diffusion و DALL-E و Midjourney في إحداث ضجة في عالم التكنولوجيا وما وراءه. يعتبرها الكثيرون من بين أهم التطورات الأخيرة في مجال الذكاء الاصطناعي. سواء كنت توافق أم لا ، يبدو أن الشعور العام هو أن شيئًا ما قد نشأ. في عام 2023 ، سنتعرف على القوالب التي يمكنها مساعدتك في رسم مقاطع الفيديو أو إنشائها. تمامًا مثل الأسئلة المتعلقة بأحدث أفضل هاتف ذكي ، سنسأل قريبًا ما هو أحدث طراز أساسي. ومع ذلك ، على الرغم من كل هذه الإثارة ، نعتقد أن هناك مجالًا واحدًا في وسائل الإعلام التوليدية لا يزال غير محترم للغاية: صوت الذكاء الاصطناعي. هذا هو المجال الذي نسعى فيه لأن نصبح قادة. في Eleven ، نعتمد على الإمكانات المفتوحة من خلال تقنيات التعلم العميق كل يوم لتشغيل أدواتنا الواقعية لتحويل النص إلى كلام واستنساخ الصوت. ونحن الآن نطرح أيضًا نموذجنا الخاص الذي يتيح لك تصميم أصوات تركيبية جديدة تمامًا من البداية. مولد الصوت - تصميم صوت

يستخدم مستخدمونا المنصة يوميًا لإضفاء الحيوية على شخصياتهم ، سواء للكتب الصوتية أو الألعاب أو قصص المعجبين. لقد أدركنا أن بنك المتحدثين الحاليين لدينا صغير جدًا بحيث يتعذر على الجميع العثور على الأصوات التي تتناسب مع احتياجات المحتوى الخاصة بهم مع البقاء حصريًا لكل مستخدم. كان الحل الذي قدمناه هو السماح لك بتصميم أصوات تركيبية جديدة تمامًا.

حصلنا على فكرة عن كيفية القيام بذلك عندما فكّرنا الطرق التي نستخدمها حاليًا لتحويل النص إلى كلام واستنساخ الصوت. تتطلب كلتا العمليتين طريقة لتشفير خصائص صوت معين. تكامل السماعات هو ما يحمل تلك الهوية - إنها تمثيل متجه لصوت المتحدث. أدركنا أنه يمكننا أخذ عينات من توزيع حفلات الزفاف عن طريق تدريب نموذج مخصص للسماح لنا بإنشاء أصوات جديدة لا نهاية لها.

نظرًا لأن مستخدمينا يبحثون بشكل أساسي عن خصائص صوتية معينة ، فقد احتجنا إلى إضافة بعض التحكم إلى العملية. قمنا بتوسيع نموذجنا مع التكييف لتوليد أصوات بناءً على خصائصها. يتيح لك النموذج الآن تعيين بعض المعلمات الأساسية التي تحدد الهوية الأساسية للصوت الجديد: الجنس والعمر واللهجة وطبقة الصوت وأسلوب التحدث. بمعنى آخر ، في كل مرة تضغط فيها على "إنشاء" ، حتى إذا اخترت نفس الإعدادات الأساسية ، ستحصل على صوت جديد تمامًا لم يكن موجودًا من قبل.

فيما يلي بعض الأمثلة للأصوات التي يمكن تصميمها بهذه الطريقة: audio-thumbnail

قصة 0:00

/ 0: 20

audio-thumbnail

الأخبار 0:00

/ 0: 17

audio-thumbnail

تحادثي 0:00

/ 0: 20

سيتوفر "Design Voice" على منصتنا في فبراير ، كجزء من Voice Lab.

بماذا تستخدم؟

يمكن لأدواتنا بالفعل إنتاج كلام واقعي مثل أي شخص آخر ، ونتوقع أن يتوسع مجال التطبيقات المحتملة للأصوات الاصطناعية فقط. سيتطلب العديد من هذه التطبيقات الجديدة ، بما في ذلك التسجيل الصوتي للمنشورات أو الإعلانات الإخبارية ، تقييد الصوت وتحديده بعلامة تجارية معينة أو حالة استخدام معينة ، وعدم استخدامه في أي مكان آخر. حالات الاستخدام الأخرى ، مثل سرد القصص وألعاب الفيديو ، تعطي الأولوية للمرونة وحرية التجربة في وقت مبكر من التطوير. لذلك ، بدلاً من إنشاء مجموعة هائلة من مكبرات الصوت الافتراضية ، قررنا السماح للمستخدمين بالحصول على الكلمة الأخيرة بشأن الأصوات التي تناسب احتياجاتهم بشكل أفضل.

لا يتمتع مؤلفو الكتب الآن بالقدرة على تحويل أعمالهم بسهولة إلى صوت فحسب ، بل يحتفظون أيضًا بالسيطرة الفنية على صياغة سرد مفصل حسب الطلب. يقدم هذا لجمهورهم طرقًا جديدة ومثيرة للتفاعل مع المنشورات ، مع زيادة عدد الكتب التي سنستمتع بها بشكل كبير ...

هذا الصوت غير موجود - Generative Voice AI
audio-thumbnail

استمع إلى هذه القصة 0:00

/ 7:13

في الآونة الأخيرة ، يبدو أن الجميع يتحدثون عن الذكاء الاصطناعي التوليدي. تسببت نماذج اللغة والنص إلى صورة المبنية على التعلم العميق مثل ChatGPT و Stable Diffusion و DALL-E و Midjourney في إحداث ضجة في عالم التكنولوجيا وما وراءه. يعتبرها الكثيرون من بين أهم التطورات الأخيرة في مجال الذكاء الاصطناعي. سواء كنت توافق أم لا ، يبدو أن الشعور العام هو أن شيئًا ما قد نشأ. في عام 2023 ، سنتعرف على القوالب التي يمكنها مساعدتك في رسم مقاطع الفيديو أو إنشائها. تمامًا مثل الأسئلة المتعلقة بأحدث أفضل هاتف ذكي ، سنسأل قريبًا ما هو أحدث طراز أساسي. ومع ذلك ، على الرغم من كل هذه الإثارة ، نعتقد أن هناك مجالًا واحدًا في وسائل الإعلام التوليدية لا يزال غير محترم للغاية: صوت الذكاء الاصطناعي. هذا هو المجال الذي نسعى فيه لأن نصبح قادة. في Eleven ، نعتمد على الإمكانات المفتوحة من خلال تقنيات التعلم العميق كل يوم لتشغيل أدواتنا الواقعية لتحويل النص إلى كلام واستنساخ الصوت. ونحن الآن نطرح أيضًا نموذجنا الخاص الذي يتيح لك تصميم أصوات تركيبية جديدة تمامًا من البداية. مولد الصوت - تصميم صوت

يستخدم مستخدمونا المنصة يوميًا لإضفاء الحيوية على شخصياتهم ، سواء للكتب الصوتية أو الألعاب أو قصص المعجبين. لقد أدركنا أن بنك المتحدثين الحاليين لدينا صغير جدًا بحيث يتعذر على الجميع العثور على الأصوات التي تتناسب مع احتياجات المحتوى الخاصة بهم مع البقاء حصريًا لكل مستخدم. كان الحل الذي قدمناه هو السماح لك بتصميم أصوات تركيبية جديدة تمامًا.

حصلنا على فكرة عن كيفية القيام بذلك عندما فكّرنا الطرق التي نستخدمها حاليًا لتحويل النص إلى كلام واستنساخ الصوت. تتطلب كلتا العمليتين طريقة لتشفير خصائص صوت معين. تكامل السماعات هو ما يحمل تلك الهوية - إنها تمثيل متجه لصوت المتحدث. أدركنا أنه يمكننا أخذ عينات من توزيع حفلات الزفاف عن طريق تدريب نموذج مخصص للسماح لنا بإنشاء أصوات جديدة لا نهاية لها.

نظرًا لأن مستخدمينا يبحثون بشكل أساسي عن خصائص صوتية معينة ، فقد احتجنا إلى إضافة بعض التحكم إلى العملية. قمنا بتوسيع نموذجنا مع التكييف لتوليد أصوات بناءً على خصائصها. يتيح لك النموذج الآن تعيين بعض المعلمات الأساسية التي تحدد الهوية الأساسية للصوت الجديد: الجنس والعمر واللهجة وطبقة الصوت وأسلوب التحدث. بمعنى آخر ، في كل مرة تضغط فيها على "إنشاء" ، حتى إذا اخترت نفس الإعدادات الأساسية ، ستحصل على صوت جديد تمامًا لم يكن موجودًا من قبل.

فيما يلي بعض الأمثلة للأصوات التي يمكن تصميمها بهذه الطريقة: audio-thumbnail

قصة 0:00

/ 0: 20

audio-thumbnail

الأخبار 0:00

/ 0: 17

audio-thumbnail

تحادثي 0:00

/ 0: 20

سيتوفر "Design Voice" على منصتنا في فبراير ، كجزء من Voice Lab.

بماذا تستخدم؟

يمكن لأدواتنا بالفعل إنتاج كلام واقعي مثل أي شخص آخر ، ونتوقع أن يتوسع مجال التطبيقات المحتملة للأصوات الاصطناعية فقط. سيتطلب العديد من هذه التطبيقات الجديدة ، بما في ذلك التسجيل الصوتي للمنشورات أو الإعلانات الإخبارية ، تقييد الصوت وتحديده بعلامة تجارية معينة أو حالة استخدام معينة ، وعدم استخدامه في أي مكان آخر. حالات الاستخدام الأخرى ، مثل سرد القصص وألعاب الفيديو ، تعطي الأولوية للمرونة وحرية التجربة في وقت مبكر من التطوير. لذلك ، بدلاً من إنشاء مجموعة هائلة من مكبرات الصوت الافتراضية ، قررنا السماح للمستخدمين بالحصول على الكلمة الأخيرة بشأن الأصوات التي تناسب احتياجاتهم بشكل أفضل.

لا يتمتع مؤلفو الكتب الآن بالقدرة على تحويل أعمالهم بسهولة إلى صوت فحسب ، بل يحتفظون أيضًا بالسيطرة الفنية على صياغة سرد مفصل حسب الطلب. يقدم هذا لجمهورهم طرقًا جديدة ومثيرة للتفاعل مع المنشورات ، مع زيادة عدد الكتب التي سنستمتع بها بشكل كبير ...

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow