قد يكون نموذج Google Muse هو الشيء الكبير التالي للذكاء الاصطناعي التوليدي

تحقق من جميع الجلسات عند الطلب لقمة Smart Security من هنا .

كان عام 2022 عامًا رائعًا للذكاء الاصطناعي التوليدي ، مع إصدار نماذج مثل DALL-E 2 و Stable Diffusion و Imagen و Parti. ويبدو أن عام 2023 يسير على هذا النحو حيث قدمت Google أحدث نموذج توليف نص إلى صورة ، Muse ، في وقت سابق من هذا الشهر.

مثل نماذج تحويل النص إلى صورة أخرى ، فإن Muse عبارة عن شبكة عصبية عميقة تأخذ مطالبة نصية كمدخلات وتقوم بإنشاء صورة تطابق الوصف. ومع ذلك ، فإن ما يميز Muse عن سابقيه هو كفاءته ودقته. من خلال البناء على خبرة العمل السابق في هذا المجال وإضافة تقنيات جديدة ، تمكن باحثو Google من إنشاء نموذج توليدي يتطلب موارد حسابية أقل ويحقق تقدمًا في بعض المشكلات التي يعاني منها الآخرون. النماذج التوليدية. يستخدم Google's Muse توليد الصور المستند إلى الرمز المميز

يعتمد Muse على الأبحاث السابقة في التعلم العميق ، بما في ذلك نماذج اللغة الكبيرة (LLMs) والشبكات التوليدية الكمية ومحولات الصور التوليدية المخفية.

قال الباحث في Google Dilip Krishnan: "كان الدافع القوي هو اهتمامنا بتوحيد توليد الصور والنصوص من خلال استخدام الرموز". "تم بناء Muse على الأفكار في MaskGit ، وهي مشاركة سابقة من مجموعتنا ، وإخفاء أفكار النمذجة من نماذج اللغات الكبيرة." حدث

قمة الأمن الذكي عند الطلب

تعرف على الدور الأساسي للذكاء الاصطناعي والتعلم الآلي في الأمن السيبراني ودراسات الحالة الخاصة بالصناعة. شاهد الجلسات عند الطلب اليوم. انظر هنا

تستفيد Muse من التكييف على نماذج اللغة المدربة مسبقًا والمستخدمة في العمل السابق ، بالإضافة إلى فكرة النماذج المتتالية ، والتي تقترضها من Imagen. أحد الاختلافات المثيرة للاهتمام بين Muse والنماذج المماثلة الأخرى هو إنشاء الرموز المميزة المنفصلة بدلاً من التمثيلات على مستوى البكسل ، مما يجعل إخراج النموذج أكثر استقرارًا.

مثل غيره من أدوات إنشاء تحويل النص إلى صورة ، يتم تدريب Muse على مجموعة كبيرة من أزواج تسميات الصور. تعالج LLM المدربة مسبقًا الأسطورة وتولد تمثيلًا رقميًا متعدد الأبعاد مدمجًا للوصف النصي. في الوقت نفسه ، تعمل سلسلة من اثنين من مفكك تشفير الصور على تحويل درجات دقة مختلفة للصورة المدخلة إلى مصفوفة من الرموز المميزة.

أثناء التدريب ، يقوم النموذج بتدريب محول أساسي ومحول فائق الدقة لمحاذاة تمثيلات متجهية للنص مع الرموز المميزة للصورة واستخدامها لتقديم الصورة. يضبط النموذج معلماته عن طريق إخفاء الرموز المميزة للصورة عشوائيًا ومحاولة التنبؤ بها.

Diagram Description automatically generated

مصدر الصورة: Google.

بمجرد التدريب ، يمكن للنموذج إنشاء الرموز المميزة للصورة من تضمين النص لمطالبة جديدة واستخدام الرموز المميزة للصورة لإنشاء صور جديدة عالية الدقة.

وفقًا لكريشنان ، يتمثل أحد ابتكارات Muse في فك التشفير المتوازي في الفضاء الرمزي ، والذي يختلف اختلافًا جوهريًا عن نماذج الانتشار والانحدار الذاتي. نماذج الانتشار تستخدم التقليل التدريجي للضوضاء. تستخدم نماذج الانحدار التلقائي فك التشفير التسلسلي. يوفر فك التشفير الموازي في Muse كفاءة جيدة جدًا دون فقدان الجودة المرئية.

"نحن نعتبر Mu ...

قد يكون نموذج Google Muse هو الشيء الكبير التالي للذكاء الاصطناعي التوليدي

تحقق من جميع الجلسات عند الطلب لقمة Smart Security من هنا .

كان عام 2022 عامًا رائعًا للذكاء الاصطناعي التوليدي ، مع إصدار نماذج مثل DALL-E 2 و Stable Diffusion و Imagen و Parti. ويبدو أن عام 2023 يسير على هذا النحو حيث قدمت Google أحدث نموذج توليف نص إلى صورة ، Muse ، في وقت سابق من هذا الشهر.

مثل نماذج تحويل النص إلى صورة أخرى ، فإن Muse عبارة عن شبكة عصبية عميقة تأخذ مطالبة نصية كمدخلات وتقوم بإنشاء صورة تطابق الوصف. ومع ذلك ، فإن ما يميز Muse عن سابقيه هو كفاءته ودقته. من خلال البناء على خبرة العمل السابق في هذا المجال وإضافة تقنيات جديدة ، تمكن باحثو Google من إنشاء نموذج توليدي يتطلب موارد حسابية أقل ويحقق تقدمًا في بعض المشكلات التي يعاني منها الآخرون. النماذج التوليدية. يستخدم Google's Muse توليد الصور المستند إلى الرمز المميز

يعتمد Muse على الأبحاث السابقة في التعلم العميق ، بما في ذلك نماذج اللغة الكبيرة (LLMs) والشبكات التوليدية الكمية ومحولات الصور التوليدية المخفية.

قال الباحث في Google Dilip Krishnan: "كان الدافع القوي هو اهتمامنا بتوحيد توليد الصور والنصوص من خلال استخدام الرموز". "تم بناء Muse على الأفكار في MaskGit ، وهي مشاركة سابقة من مجموعتنا ، وإخفاء أفكار النمذجة من نماذج اللغات الكبيرة." حدث

قمة الأمن الذكي عند الطلب

تعرف على الدور الأساسي للذكاء الاصطناعي والتعلم الآلي في الأمن السيبراني ودراسات الحالة الخاصة بالصناعة. شاهد الجلسات عند الطلب اليوم. انظر هنا

تستفيد Muse من التكييف على نماذج اللغة المدربة مسبقًا والمستخدمة في العمل السابق ، بالإضافة إلى فكرة النماذج المتتالية ، والتي تقترضها من Imagen. أحد الاختلافات المثيرة للاهتمام بين Muse والنماذج المماثلة الأخرى هو إنشاء الرموز المميزة المنفصلة بدلاً من التمثيلات على مستوى البكسل ، مما يجعل إخراج النموذج أكثر استقرارًا.

مثل غيره من أدوات إنشاء تحويل النص إلى صورة ، يتم تدريب Muse على مجموعة كبيرة من أزواج تسميات الصور. تعالج LLM المدربة مسبقًا الأسطورة وتولد تمثيلًا رقميًا متعدد الأبعاد مدمجًا للوصف النصي. في الوقت نفسه ، تعمل سلسلة من اثنين من مفكك تشفير الصور على تحويل درجات دقة مختلفة للصورة المدخلة إلى مصفوفة من الرموز المميزة.

أثناء التدريب ، يقوم النموذج بتدريب محول أساسي ومحول فائق الدقة لمحاذاة تمثيلات متجهية للنص مع الرموز المميزة للصورة واستخدامها لتقديم الصورة. يضبط النموذج معلماته عن طريق إخفاء الرموز المميزة للصورة عشوائيًا ومحاولة التنبؤ بها.

Diagram Description automatically generated

مصدر الصورة: Google.

بمجرد التدريب ، يمكن للنموذج إنشاء الرموز المميزة للصورة من تضمين النص لمطالبة جديدة واستخدام الرموز المميزة للصورة لإنشاء صور جديدة عالية الدقة.

وفقًا لكريشنان ، يتمثل أحد ابتكارات Muse في فك التشفير المتوازي في الفضاء الرمزي ، والذي يختلف اختلافًا جوهريًا عن نماذج الانتشار والانحدار الذاتي. نماذج الانتشار تستخدم التقليل التدريجي للضوضاء. تستخدم نماذج الانحدار التلقائي فك التشفير التسلسلي. يوفر فك التشفير الموازي في Muse كفاءة جيدة جدًا دون فقدان الجودة المرئية.

"نحن نعتبر Mu ...

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow