ألهم المبدأ المادي للنشر الفن الحديث للذكاء الاصطناعي

مقدمة

اطلب من DALL · E 2 ، وهو نظام لتوليد الصور تم إنشاؤه بواسطة OpenAI ، لرسم صورة "سمكة ذهبية تحتسي كوكا كولا على الشاطئ" ، وسيقوم بإخراج صور سريالية لها. وبحسب ما ورد واجه البرنامج صورًا للشواطئ وسمكة ذهبية وكوكاكولا أثناء التدريب ، لكن من المستبعد جدًا أن يكون قد شاهد صورة اجتمع فيها الثلاثة معًا. ومع ذلك ، يمكن لـ DALL · E 2 دمج المفاهيم معًا في شيء كان من الممكن أن يجعل دالي فخوراً.

DALL · E 2 هو نوع من النماذج التوليدية - نظام يحاول استخدام بيانات التدريب لإنشاء شيء جديد يمكن مقارنته بالبيانات من حيث الجودة والتنوع. هذه واحدة من أصعب المشكلات في التعلم الآلي ، وكان الوصول إلى هذه النقطة رحلة صعبة.

استخدمت النماذج التوليدية المهمة الأولى للصور نهجًا للذكاء الاصطناعي يسمى الشبكة العصبية ، وهو برنامج مكون من طبقات متعددة من الوحدات الحسابية تسمى الخلايا العصبية الاصطناعية. ولكن حتى مع تحسن جودة صورهم ، أثبتت النماذج أنها غير موثوقة ويصعب تدريبها. وفي الوقت نفسه ، فإن نموذجًا توليديًا قويًا ، تم إنشاؤه بواسطة باحث ما بعد الدكتوراه شغوف بالفيزياء ، ظل خاملاً ، حتى حقق اثنان من طلاب الدراسات العليا اختراقات تقنية جلبت الوحش إلى الحياة.

DALL · E 2 مثل هذا الوحش. الفكرة الرئيسية التي تجعل صور DALL · E 2 ممكنة - وكذلك صور منافسيها Stable Diffusion و Imagen - تأتي من عالم الفيزياء. النظام الكامن وراءها ، والمعروف باسم نموذج الانتشار ، مستوحى بشكل كبير من الديناميكا الحرارية غير المتوازنة ، التي تحكم الظواهر مثل انتشار السوائل والغازات. قال يانغ سونغ ، باحث التعلم الآلي في أوبن إيه آي: "اخترع الفيزيائيون العديد من التقنيات وهي الآن مهمة جدًا في التعلم الآلي".

هزت قوة هذه النماذج الصناعة والمستخدمين. قالت أنيما أناندكومار ، عالمة الكمبيوتر في معهد كاليفورنيا للتكنولوجيا والمديرة الأولى لأبحاث التعلم الآلي في Nvidia: "إنه وقت مثير للنماذج التوليدية". وعلى الرغم من أن الصور الواقعية التي تم إنشاؤها بواسطة نماذج الانتشار يمكن أن تديم التحيزات الاجتماعية والثقافية في بعض الأحيان ، قالت ، "لقد أظهرنا أن النماذج التوليدية مفيدة للمهام النهائية [التي] تحسن نماذج الذكاء الاصطناعي التنبؤية للعدالة". احتمالات عالية

لفهم كيفية عمل إنشاء البيانات للصور ، فلنبدأ بصورة بسيطة تتكون من وحدتي بكسل متجاورتين بتدرج الرمادي. يمكننا وصف هذه الصورة تمامًا بقيمتين ، بناءً على ظل كل بكسل (من الصفر إلى اللون الأسود تمامًا إلى 255 أبيض تمامًا). يمكنك استخدام هاتين القيمتين لرسم الصورة كنقطة في مساحة ثنائية الأبعاد.

إذا رسمنا صورًا متعددة كنقاط ، فقد تظهر مجموعات - بعض الصور وقيم البكسل المقابلة لها تحدث بشكل متكرر أكثر من غيرها. تخيل الآن سطحًا فوق المستوى ، حيث يتوافق ارتفاع السطح مع كثافة المجموعات. يرسم هذا السطح توزيع احتمالي. من المرجح أن تجد نقاط بيانات فردية أسفل الجزء العلوي من السطح ، وقليل منها حيث يكون السطح في أدنى مستوى. مقدمة

يمكنك الآن استخدام توزيع الاحتمالات هذا لإنشاء صور جديدة. كل ما عليك القيام به هو إنشاء نقاط بيانات جديدة بشكل عشوائي مع الالتزام بالقيود التي تقوم بتوليد بيانات أكثر احتمالية في كثير من الأحيان - وهي عملية تسمى "أخذ العينات" للتوزيع. كل نقطة جديدة هي صورة جديدة.

ينطبق نفس التحليل على صور فوتوغرافية أكثر واقعية بتدرج الرمادي ، على سبيل المثال ، مليون بكسل لكل منها. الآن فقط رسم كل إطار لا يتطلب محورين ، بل مليون. سيكون توزيع الاحتمالات على مثل هذه الصور سطحًا معقدًا بمليون زائد بعد واحد. إذا قمت بتجربة هذا التوزيع ، فسوف تنتج قيم مليون بكسل. اطبع وحدات البكسل هذه على ورقة وستبدو الصورة على الأرجح كصورة لمجموعة البيانات الأصلية.

يتمثل التحدي المتمثل في النمذجة التوليدية في معرفة هذا التوزيع الاحتمالي المعقد لمجموعة من الصور التي تشكل بيانات التدريب. يُعد التوزيع مفيدًا جزئيًا لأنه يلتقط معلومات مفصلة حول البيانات ، وجزئيًا لأنه يمكن للباحثين الجمع بين التوزيعات الاحتمالية على أنواع مختلفة من البيانات (مثل النصوص والصور) لتكوين مخرجات سريالية. ، مثل السمكة الذهبية التي تحتسي الكوكا كولا على الشاطئ . . "يمكنك المزج والتوفيق بين عناصر مختلفة ...

ألهم المبدأ المادي للنشر الفن الحديث للذكاء الاصطناعي
مقدمة

اطلب من DALL · E 2 ، وهو نظام لتوليد الصور تم إنشاؤه بواسطة OpenAI ، لرسم صورة "سمكة ذهبية تحتسي كوكا كولا على الشاطئ" ، وسيقوم بإخراج صور سريالية لها. وبحسب ما ورد واجه البرنامج صورًا للشواطئ وسمكة ذهبية وكوكاكولا أثناء التدريب ، لكن من المستبعد جدًا أن يكون قد شاهد صورة اجتمع فيها الثلاثة معًا. ومع ذلك ، يمكن لـ DALL · E 2 دمج المفاهيم معًا في شيء كان من الممكن أن يجعل دالي فخوراً.

DALL · E 2 هو نوع من النماذج التوليدية - نظام يحاول استخدام بيانات التدريب لإنشاء شيء جديد يمكن مقارنته بالبيانات من حيث الجودة والتنوع. هذه واحدة من أصعب المشكلات في التعلم الآلي ، وكان الوصول إلى هذه النقطة رحلة صعبة.

استخدمت النماذج التوليدية المهمة الأولى للصور نهجًا للذكاء الاصطناعي يسمى الشبكة العصبية ، وهو برنامج مكون من طبقات متعددة من الوحدات الحسابية تسمى الخلايا العصبية الاصطناعية. ولكن حتى مع تحسن جودة صورهم ، أثبتت النماذج أنها غير موثوقة ويصعب تدريبها. وفي الوقت نفسه ، فإن نموذجًا توليديًا قويًا ، تم إنشاؤه بواسطة باحث ما بعد الدكتوراه شغوف بالفيزياء ، ظل خاملاً ، حتى حقق اثنان من طلاب الدراسات العليا اختراقات تقنية جلبت الوحش إلى الحياة.

DALL · E 2 مثل هذا الوحش. الفكرة الرئيسية التي تجعل صور DALL · E 2 ممكنة - وكذلك صور منافسيها Stable Diffusion و Imagen - تأتي من عالم الفيزياء. النظام الكامن وراءها ، والمعروف باسم نموذج الانتشار ، مستوحى بشكل كبير من الديناميكا الحرارية غير المتوازنة ، التي تحكم الظواهر مثل انتشار السوائل والغازات. قال يانغ سونغ ، باحث التعلم الآلي في أوبن إيه آي: "اخترع الفيزيائيون العديد من التقنيات وهي الآن مهمة جدًا في التعلم الآلي".

هزت قوة هذه النماذج الصناعة والمستخدمين. قالت أنيما أناندكومار ، عالمة الكمبيوتر في معهد كاليفورنيا للتكنولوجيا والمديرة الأولى لأبحاث التعلم الآلي في Nvidia: "إنه وقت مثير للنماذج التوليدية". وعلى الرغم من أن الصور الواقعية التي تم إنشاؤها بواسطة نماذج الانتشار يمكن أن تديم التحيزات الاجتماعية والثقافية في بعض الأحيان ، قالت ، "لقد أظهرنا أن النماذج التوليدية مفيدة للمهام النهائية [التي] تحسن نماذج الذكاء الاصطناعي التنبؤية للعدالة". احتمالات عالية

لفهم كيفية عمل إنشاء البيانات للصور ، فلنبدأ بصورة بسيطة تتكون من وحدتي بكسل متجاورتين بتدرج الرمادي. يمكننا وصف هذه الصورة تمامًا بقيمتين ، بناءً على ظل كل بكسل (من الصفر إلى اللون الأسود تمامًا إلى 255 أبيض تمامًا). يمكنك استخدام هاتين القيمتين لرسم الصورة كنقطة في مساحة ثنائية الأبعاد.

إذا رسمنا صورًا متعددة كنقاط ، فقد تظهر مجموعات - بعض الصور وقيم البكسل المقابلة لها تحدث بشكل متكرر أكثر من غيرها. تخيل الآن سطحًا فوق المستوى ، حيث يتوافق ارتفاع السطح مع كثافة المجموعات. يرسم هذا السطح توزيع احتمالي. من المرجح أن تجد نقاط بيانات فردية أسفل الجزء العلوي من السطح ، وقليل منها حيث يكون السطح في أدنى مستوى. مقدمة

يمكنك الآن استخدام توزيع الاحتمالات هذا لإنشاء صور جديدة. كل ما عليك القيام به هو إنشاء نقاط بيانات جديدة بشكل عشوائي مع الالتزام بالقيود التي تقوم بتوليد بيانات أكثر احتمالية في كثير من الأحيان - وهي عملية تسمى "أخذ العينات" للتوزيع. كل نقطة جديدة هي صورة جديدة.

ينطبق نفس التحليل على صور فوتوغرافية أكثر واقعية بتدرج الرمادي ، على سبيل المثال ، مليون بكسل لكل منها. الآن فقط رسم كل إطار لا يتطلب محورين ، بل مليون. سيكون توزيع الاحتمالات على مثل هذه الصور سطحًا معقدًا بمليون زائد بعد واحد. إذا قمت بتجربة هذا التوزيع ، فسوف تنتج قيم مليون بكسل. اطبع وحدات البكسل هذه على ورقة وستبدو الصورة على الأرجح كصورة لمجموعة البيانات الأصلية.

يتمثل التحدي المتمثل في النمذجة التوليدية في معرفة هذا التوزيع الاحتمالي المعقد لمجموعة من الصور التي تشكل بيانات التدريب. يُعد التوزيع مفيدًا جزئيًا لأنه يلتقط معلومات مفصلة حول البيانات ، وجزئيًا لأنه يمكن للباحثين الجمع بين التوزيعات الاحتمالية على أنواع مختلفة من البيانات (مثل النصوص والصور) لتكوين مخرجات سريالية. ، مثل السمكة الذهبية التي تحتسي الكوكا كولا على الشاطئ . . "يمكنك المزج والتوفيق بين عناصر مختلفة ...

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow