أصبح الذكاء الاصطناعي متعدد اللغات مع Hugging Face's BLOOM

يسعدنا إعادة Transform 2022 شخصيًا في 19 تموز (يوليو) ومن 20 إلى 28 تموز (يوليو) تقريبًا. انضم إلى القادة في مجال الذكاء الاصطناعي والبيانات لإجراء مناقشات متعمقة وفرص التواصل المثيرة. اشترك اليوم!

مع كل الإثارة والابتكار المحيطين بالذكاء الاصطناعي (AI) في السنوات الأخيرة ، غالبًا ما تم تجاهل عنصر رئيسي واحد: دعم لغات متعددة ، بخلاف اللغة الإنجليزية فقط.

سيتغير ذلك الآن ، جزئيًا بفضل إطلاق BLOOM (اختصار لـ BigScience Large Open-access Open-access Multilingual Language Model). ظهر BLOOM لأول مرة في عام 2021 ، مع التطوير بقيادة شركة Hugging Face الناشئة للتعلم الآلي ، والتي جمعت 100 مليون دولار في مايو.

تستفيد جهود BigScience أيضًا من مجموعة واسعة من المساهمين ، بما في ذلك فرق Megatron من Nvidia و Microsoft DeepSpeed ​​، فضلاً عن الدعم من CNRS ، وكالة الأبحاث الوطنية الفرنسية. تم بناء نموذج BLOOM وتدريبه باستخدام الكمبيوتر الفائق Jean Zay الموجود في فرنسا.

يمتلك BLOOM بنية مشابهة لنموذج لغة GPT-3 الكبير الخاص بـ OpenAI ، ولكن مع الاختلاف الأساسي الرئيسي هو أن BLOOM متعدد اللغات. حدث

تحويل 2022

انضم إلينا في حدث الذكاء الاصطناعي التطبيقي الرائد لصناع القرار في مجال الأعمال والتكنولوجيا في المؤسسات في 19 يوليو ويوم 20-28 يوليو تقريبًا. سجل هنا

"GPT-3 أحادية اللغة وقد تم تصميم BLOOM منذ البداية ليكون متعدد اللغات ، لذلك تم تدريبه على عدة لغات وأيضًا لدمج قدر كبير من بيانات لغة البرمجة" ، تيفن لو سكاو ، مهندس بحث في Hugging Face ، كما يقول VentureBeat. "يدعم BLOOM 46 لغة بشرية و 13 لغة برمجة ، وهذا فرق كبير." كيف تم تدريب BLOOM على نماذج التعلم الآلي مفتوحة المصدر

تضمنت جهود BLOOM عدة مكونات ، بما في ذلك جمع مجموعة كبيرة من البيانات ثم إنشاء نموذج تدريب.

أوضح Le Scao أن Hugging Face تستخدم مشاريع Nvidia's Megatron و DeepSpeed ​​مفتوحة المصدر من Microsoft ، وكلاهما مصمم للسماح لعلماء البيانات بتدريب نماذج لغة كبيرة. يعتمد كل من Megatron و DeepSpeed ​​على إطار عمل تعلم الآلة PyTorch مفتوح المصدر. بالنسبة لـ BLOOM ، طور الباحثون مفترق طرق لمشروعي Megatron و DeepSpeed ​​مما سمح للنموذج بفحص جميع اللغات المختلفة.

بالنسبة إلى BLOOM نفسها ، تم تطوير المشروع بشكل مفتوح ويستخدم ترخيصه المفتوح الخاص به والذي تم تصميمه على غرار ترخيص AI المسؤول.

"نحاول تحديد ما تعنيه المصادر المفتوحة في سياق نماذج الذكاء الاصطناعي الكبيرة ، لأنها لا تعمل حقًا مثل البرامج ،" قال Le Scao.

أوضح أن الهدف من ترخيص BLOOM هو جعل النموذج كـ ...

أصبح الذكاء الاصطناعي متعدد اللغات مع Hugging Face's BLOOM

يسعدنا إعادة Transform 2022 شخصيًا في 19 تموز (يوليو) ومن 20 إلى 28 تموز (يوليو) تقريبًا. انضم إلى القادة في مجال الذكاء الاصطناعي والبيانات لإجراء مناقشات متعمقة وفرص التواصل المثيرة. اشترك اليوم!

مع كل الإثارة والابتكار المحيطين بالذكاء الاصطناعي (AI) في السنوات الأخيرة ، غالبًا ما تم تجاهل عنصر رئيسي واحد: دعم لغات متعددة ، بخلاف اللغة الإنجليزية فقط.

سيتغير ذلك الآن ، جزئيًا بفضل إطلاق BLOOM (اختصار لـ BigScience Large Open-access Open-access Multilingual Language Model). ظهر BLOOM لأول مرة في عام 2021 ، مع التطوير بقيادة شركة Hugging Face الناشئة للتعلم الآلي ، والتي جمعت 100 مليون دولار في مايو.

تستفيد جهود BigScience أيضًا من مجموعة واسعة من المساهمين ، بما في ذلك فرق Megatron من Nvidia و Microsoft DeepSpeed ​​، فضلاً عن الدعم من CNRS ، وكالة الأبحاث الوطنية الفرنسية. تم بناء نموذج BLOOM وتدريبه باستخدام الكمبيوتر الفائق Jean Zay الموجود في فرنسا.

يمتلك BLOOM بنية مشابهة لنموذج لغة GPT-3 الكبير الخاص بـ OpenAI ، ولكن مع الاختلاف الأساسي الرئيسي هو أن BLOOM متعدد اللغات. حدث

تحويل 2022

انضم إلينا في حدث الذكاء الاصطناعي التطبيقي الرائد لصناع القرار في مجال الأعمال والتكنولوجيا في المؤسسات في 19 يوليو ويوم 20-28 يوليو تقريبًا. سجل هنا

"GPT-3 أحادية اللغة وقد تم تصميم BLOOM منذ البداية ليكون متعدد اللغات ، لذلك تم تدريبه على عدة لغات وأيضًا لدمج قدر كبير من بيانات لغة البرمجة" ، تيفن لو سكاو ، مهندس بحث في Hugging Face ، كما يقول VentureBeat. "يدعم BLOOM 46 لغة بشرية و 13 لغة برمجة ، وهذا فرق كبير." كيف تم تدريب BLOOM على نماذج التعلم الآلي مفتوحة المصدر

تضمنت جهود BLOOM عدة مكونات ، بما في ذلك جمع مجموعة كبيرة من البيانات ثم إنشاء نموذج تدريب.

أوضح Le Scao أن Hugging Face تستخدم مشاريع Nvidia's Megatron و DeepSpeed ​​مفتوحة المصدر من Microsoft ، وكلاهما مصمم للسماح لعلماء البيانات بتدريب نماذج لغة كبيرة. يعتمد كل من Megatron و DeepSpeed ​​على إطار عمل تعلم الآلة PyTorch مفتوح المصدر. بالنسبة لـ BLOOM ، طور الباحثون مفترق طرق لمشروعي Megatron و DeepSpeed ​​مما سمح للنموذج بفحص جميع اللغات المختلفة.

بالنسبة إلى BLOOM نفسها ، تم تطوير المشروع بشكل مفتوح ويستخدم ترخيصه المفتوح الخاص به والذي تم تصميمه على غرار ترخيص AI المسؤول.

"نحاول تحديد ما تعنيه المصادر المفتوحة في سياق نماذج الذكاء الاصطناعي الكبيرة ، لأنها لا تعمل حقًا مثل البرامج ،" قال Le Scao.

أوضح أن الهدف من ترخيص BLOOM هو جعل النموذج كـ ...

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow