يتعرف نموذج الذكاء الاصطناعي الخاص بـ OpenAI تلقائيًا على الكلام ويترجمه إلى اللغة الإنجليزية

نموذج موجة وردية على خلفية زرقاء ، تستحضر الصوت بشكل شاعري. تكبير بنج إدواردز / آرس تكنيكا

في يوم الأربعاء ، أصدرت شركة OpenAI نموذجًا جديدًا للذكاء الاصطناعي مفتوح المصدر يسمى Whisper يتعرف على الصوت ويترجمه بمستوى يقترب من قدرة التعرف البشري. يمكنه نسخ المقابلات والبودكاست والمحادثات وما إلى ذلك.

درب OpenAI Whisper على 680.000 ساعة من البيانات الصوتية والنصوص المقابلة في 98 لغة تم جمعها من الويب. وفقًا لـ OpenAI ، أدى نهج المجموعة المفتوحة هذا إلى "متانة أفضل لللهجات وضوضاء الخلفية واللغة الفنية." يمكنه أيضًا اكتشاف اللغة المنطوقة وترجمتها إلى اللغة الإنجليزية.

يصف OpenAI Whisper على أنه محول وحدة فك التشفير ، وهو نوع من الشبكات العصبية التي يمكن أن تستخدم السياق المستمد من بيانات الإدخال لتعلم الارتباطات التي يمكن ترجمتها بعد ذلك إلى إخراج النموذج. تقدم OpenAI هذه النظرة العامة على كيفية عمل Whisper:

ينقسم صوت الإدخال إلى أجزاء مدتها 30 ثانية ، وتحويلها إلى مخطط طيفي log-Mel ، ثم يتم تمريره إلى جهاز تشفير. يتم تدريب وحدة فك التشفير على التنبؤ بالتعليق النصي المقابل ، ممزوجًا برموز خاصة توجه النموذج الفريد لأداء مهام مثل تحديد اللغة والطوابع الزمنية على مستوى الجملة والنسخ الصوتي متعدد اللغات والترجمة الصوتية إلى الإنجليزية.

في Whisper مفتوح المصدر ، تأمل OpenAI في تقديم نموذج أساسي جديد يمكن للآخرين البناء عليه في المستقبل لتحسين معالجة الكلام وأدوات الوصول. OpenAI لديها سجل حافل على هذه الجبهة. في يناير 2021 ، أصدرت شركة OpenAI CLIP ، وهو نموذج رؤية حاسوبي مفتوح المصدر يمكن القول إنه أشعل العصر الحديث لتقنيات تركيب الصور سريعة الخطى مثل DALL-E 2 و Stable Diffusion.

في Ars Technica ، اختبرنا Whisper مقابل الكود المتاح على GitHub ، وقدمنا ​​له عدة عينات ، بما في ذلك حلقة بودكاست وقسم صوتي يصعب فهمه بشكل خاص من مقابلة عبر الهاتف. على الرغم من أن تشغيل معالج سطح مكتب قياسي من Intel استغرق بعض الوقت (لا تعمل التقنية في الوقت الفعلي حتى الآن) ، إلا أن Whisper قام بعمل جيد في ترجمة الصوت إلى نص من خلال البرنامج. Python demo - أفضل بكثير من بعض خدمات النسخ الصوتي نحن ' لقد حاولت في الماضي.

مثال على إخراج وحدة التحكم من برنامج Whisper التجريبي من OpenAI عند نسخ بودكاست. تكبير / عينة إخراج وحدة التحكم من برنامج Whisper التجريبي الخاص بـ OpenAI أثناء نسخ بودكاست. بنج إدواردز / آرس تكنيكا

من خلال الإعداد الصحيح ، يمكن بسهولة استخدام Whisper في نسخ المقابلات وملفات podcast وربما ترجمة ملفات podcast المنتجة بلغات أخرى غير الإنجليزية إلى الإنجليزية على جهازك مجانًا. إنه مزيج قوي يمكنه في النهاية تعطيل صناعة النسخ.

مثل كل نموذج ذكاء اصطناعي رئيسي جديد تقريبًا هذه الأيام ، يجلب Whisper فوائد إيجابية وإمكانية إساءة الاستخدام. في نموذج بطاقة Whisper (ضمن قسم "العواقب الأوسع") ، تحذر OpenAI من إمكانية استخدام Whisper لأتمتة المراقبة أو تحديد المتحدثين الفرديين في محادثة ما ، لكن الشركة تأمل أن يتم استخدامه "في المقام الأول لأغراض مفيدة". < / ص>

يتعرف نموذج الذكاء الاصطناعي الخاص بـ OpenAI تلقائيًا على الكلام ويترجمه إلى اللغة الإنجليزية
نموذج موجة وردية على خلفية زرقاء ، تستحضر الصوت بشكل شاعري. تكبير بنج إدواردز / آرس تكنيكا

في يوم الأربعاء ، أصدرت شركة OpenAI نموذجًا جديدًا للذكاء الاصطناعي مفتوح المصدر يسمى Whisper يتعرف على الصوت ويترجمه بمستوى يقترب من قدرة التعرف البشري. يمكنه نسخ المقابلات والبودكاست والمحادثات وما إلى ذلك.

درب OpenAI Whisper على 680.000 ساعة من البيانات الصوتية والنصوص المقابلة في 98 لغة تم جمعها من الويب. وفقًا لـ OpenAI ، أدى نهج المجموعة المفتوحة هذا إلى "متانة أفضل لللهجات وضوضاء الخلفية واللغة الفنية." يمكنه أيضًا اكتشاف اللغة المنطوقة وترجمتها إلى اللغة الإنجليزية.

يصف OpenAI Whisper على أنه محول وحدة فك التشفير ، وهو نوع من الشبكات العصبية التي يمكن أن تستخدم السياق المستمد من بيانات الإدخال لتعلم الارتباطات التي يمكن ترجمتها بعد ذلك إلى إخراج النموذج. تقدم OpenAI هذه النظرة العامة على كيفية عمل Whisper:

ينقسم صوت الإدخال إلى أجزاء مدتها 30 ثانية ، وتحويلها إلى مخطط طيفي log-Mel ، ثم يتم تمريره إلى جهاز تشفير. يتم تدريب وحدة فك التشفير على التنبؤ بالتعليق النصي المقابل ، ممزوجًا برموز خاصة توجه النموذج الفريد لأداء مهام مثل تحديد اللغة والطوابع الزمنية على مستوى الجملة والنسخ الصوتي متعدد اللغات والترجمة الصوتية إلى الإنجليزية.

في Whisper مفتوح المصدر ، تأمل OpenAI في تقديم نموذج أساسي جديد يمكن للآخرين البناء عليه في المستقبل لتحسين معالجة الكلام وأدوات الوصول. OpenAI لديها سجل حافل على هذه الجبهة. في يناير 2021 ، أصدرت شركة OpenAI CLIP ، وهو نموذج رؤية حاسوبي مفتوح المصدر يمكن القول إنه أشعل العصر الحديث لتقنيات تركيب الصور سريعة الخطى مثل DALL-E 2 و Stable Diffusion.

في Ars Technica ، اختبرنا Whisper مقابل الكود المتاح على GitHub ، وقدمنا ​​له عدة عينات ، بما في ذلك حلقة بودكاست وقسم صوتي يصعب فهمه بشكل خاص من مقابلة عبر الهاتف. على الرغم من أن تشغيل معالج سطح مكتب قياسي من Intel استغرق بعض الوقت (لا تعمل التقنية في الوقت الفعلي حتى الآن) ، إلا أن Whisper قام بعمل جيد في ترجمة الصوت إلى نص من خلال البرنامج. Python demo - أفضل بكثير من بعض خدمات النسخ الصوتي نحن ' لقد حاولت في الماضي.

مثال على إخراج وحدة التحكم من برنامج Whisper التجريبي من OpenAI عند نسخ بودكاست. تكبير / عينة إخراج وحدة التحكم من برنامج Whisper التجريبي الخاص بـ OpenAI أثناء نسخ بودكاست. بنج إدواردز / آرس تكنيكا

من خلال الإعداد الصحيح ، يمكن بسهولة استخدام Whisper في نسخ المقابلات وملفات podcast وربما ترجمة ملفات podcast المنتجة بلغات أخرى غير الإنجليزية إلى الإنجليزية على جهازك مجانًا. إنه مزيج قوي يمكنه في النهاية تعطيل صناعة النسخ.

مثل كل نموذج ذكاء اصطناعي رئيسي جديد تقريبًا هذه الأيام ، يجلب Whisper فوائد إيجابية وإمكانية إساءة الاستخدام. في نموذج بطاقة Whisper (ضمن قسم "العواقب الأوسع") ، تحذر OpenAI من إمكانية استخدام Whisper لأتمتة المراقبة أو تحديد المتحدثين الفرديين في محادثة ما ، لكن الشركة تأمل أن يتم استخدامه "في المقام الأول لأغراض مفيدة". < / ص>

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow