قانون 1: محول العمل

لقد تطور الذكاء الاصطناعي بمعدل مذهل في السنوات الأخيرة. أدى تحجيم المحولات إلى إمكانات رائعة في اللغة (مثل GPT-3 و PaLM و Chinchilla) والرمز (مثل Codex و AlphaCode) وتوليد الصور (على سبيل المثال ، DALL-E ، Imagen). في Adept ، نبني الحدود التالية للنماذج القادرة على العمل في العالم الرقمي. لهذا السبب نحن متحمسون لتقديم أول نموذج رئيسي لدينا ، Action Transformer (ACT-1).

لماذا نحن متحمسون جدًا لهذا؟

أولاً ، نعتقد أن أوضح إطار عمل للذكاء العام هو نظام قادر على فعل أي شيء يمكن للإنسان القيام به أمام الكمبيوتر. يعد النموذج الأساسي للإجراءات ، المدرب على استخدام جميع أدوات البرامج الموجودة ، وواجهات برمجة التطبيقات وتطبيقات الويب ، مسارًا عمليًا نحو هذا الهدف الطموح ، و ACT-1 هو خطوتنا الأولى في هذا الاتجاه.

ثانيًا ، سيتم تحديد الحقبة التالية من الحوسبة من خلال واجهات اللغة الطبيعية التي تسمح لنا بإخبار أجهزة الكمبيوتر الخاصة بنا مباشرة بما نريد ، بدلاً من إخباره يدويًا. نأمل أن تمنحك هذه المقتطفات من ACT-1 نافذة على الحدود التالية للحوسبة كما نراها!

اشترك هنا للانضمام إلى قائمة الانتظار للإصدار الأولي التالي من أول منتج قائم على ACT-1.

نظرة عامة على القدرات

ACT-1 هو معالج واسع النطاق تم تدريبه على استخدام الأدوات الرقمية. على وجه الخصوص ، علمناه مؤخرًا كيفية استخدام متصفح الويب. حاليًا ، يتم توصيله بملحق Chrome الذي يسمح لـ ACT-1 بمراقبة ما يحدث في المتصفح وتنفيذ إجراءات معينة ، مثل النقر والكتابة والتمرير ، إلخ. المراقبة عبارة عن "عرض" مخصص لنافذة المتصفح يهدف إلى التعميم عبر مواقع الويب ، ومساحة الإجراء هي عناصر واجهة المستخدم المتوفرة على الصفحة.

هناك متسع كبير لتسريعها ، سواء من جانب النمذجة أو على جانب البرنامج. لذلك نتوقع أن يكون للأنظمة المستقبلية زمن انتقال غير محسوس إلى حد كبير للبشر. تم تسريع مقاطع الفيديو هذه لتسهيل مشاهدتها. ستخوض مقالة فنية قادمة في مزيد من التفاصيل حول كل هذه الموضوعات.

إليك بعض الأشياء الرائعة التي يمكن أن يقوم بها ACT-1!

يمكن أن يأخذ ACT-1 طلب مستخدم عالي المستوى وينفذه. يقوم المستخدم ببساطة بكتابة أمر في مربع النص ويقوم ACT-1 بالباقي. في هذا المثال ، يتطلب الأمر اتخاذ إجراءات وملاحظات بشكل متكرر على مدى فترة زمنية طويلة لتحقيق هدف واحد.

يمكن أن يكون هذا فعالًا بشكل خاص للمهام اليدوية والأدوات المعقدة: في هذا المثال ، يمكن الآن إجراء ما يتطلب عادةً أكثر من 10 نقرات في Salesforce في جملة واحدة.

من خلال العمل بعمق في أدوات مثل جداول البيانات ، يوضح ACT-1 المعرفة الواقعية ، ويستنتج ما نعنيه بالسياق ، ويمكن أن يساعدنا في القيام بأشياء قد لا نعرف حتى أننا لا نفعلها.

يمكن للنموذج أيضًا أداء المهام التي تتطلب إنشاء أدوات متعددة معًا ؛ تتضمن معظم الأشياء التي نقوم بها على الكمبيوتر برامج متعددة. في المستقبل ، نتوقع أن يكون ACT-1 أكثر فائدة في طلب توضيح ما نريد.

يحتوي الإنترنت على قدر كبير من المعرفة حول العالم! عندما لا يعرف النموذج شيئًا ما ، فهو يعرف فقط كيفية البحث عن المعلومات عبر الإنترنت (هنا في الوضع الصوتي).

لا يمكن لـ ACT-1 القيام بكل شيء ، ولكنه قابل للتكيف بدرجة كبيرة. من خلال عنصر واحد من التعليقات البشرية ، يمكنه تصحيح الأخطاء ، ويصبح أكثر فائدة مع كل تفاعل.

أتطلّع لذلك

ستعمل واجهات اللغة الطبيعية ، التي يتم تشغيلها بواسطة محولات الحركة مثل ACT-1 ، على توسيع ما يمكن للأشخاص القيام به أمام جهاز كمبيوتر / هاتف / جهاز متصل بالإنترنت. في غضون سنوات قليلة نعتقد: ستتم معظم التفاعلات مع أجهزة الكمبيوتر باستخدام لغة طبيعية ، وليس واجهات رسومية. سنخبر جهاز الكمبيوتر الخاص بنا بما يجب القيام به ، وسيفعل ذلك. ستبدو واجهات المستخدم اليوم قريبًا مثل الهواتف الأرضية لمستخدمي الهواتف الذكية. سيصبح المبتدئون مستخدمين ذوي خبرة ، ولا يلزم التدريب. يمكن لأي شخص يمكنه التعبير عن أفكاره بلغة تنفيذها ، بغض النظر عن خبرته. سيصبح البرنامج أكثر قوة عندما تصبح الميزات المتقدمة متاحة للجميع ولن تكون مقيدة بطول القائمة المنسدلة. التوثيق والكتيبات والأسئلة الشائعة ستكون للنماذج وليس الأشخاص. لن نحتاج بعد الآن إلى تعلم اللغة الأصلية لكل أداة برمجية لنكون فعالين في مهمة ما. لن نبحث مطلقًا في المنتديات عن "كيفية تنفيذ X في Salesforce أو Unity أو Figma" - سيقوم القالب بهذه المهمة ، مما يسمح لنا بالتركيز على المهمة ذات الترتيب الأعلى في متناول اليد. سيتم تسريع الاختراقات في جميع المجالات باستخدام الذكاء الاصطناعي باعتباره زميلك في الفريق. محولات العمل مع ...

قانون 1: محول العمل

لقد تطور الذكاء الاصطناعي بمعدل مذهل في السنوات الأخيرة. أدى تحجيم المحولات إلى إمكانات رائعة في اللغة (مثل GPT-3 و PaLM و Chinchilla) والرمز (مثل Codex و AlphaCode) وتوليد الصور (على سبيل المثال ، DALL-E ، Imagen). في Adept ، نبني الحدود التالية للنماذج القادرة على العمل في العالم الرقمي. لهذا السبب نحن متحمسون لتقديم أول نموذج رئيسي لدينا ، Action Transformer (ACT-1).

لماذا نحن متحمسون جدًا لهذا؟

أولاً ، نعتقد أن أوضح إطار عمل للذكاء العام هو نظام قادر على فعل أي شيء يمكن للإنسان القيام به أمام الكمبيوتر. يعد النموذج الأساسي للإجراءات ، المدرب على استخدام جميع أدوات البرامج الموجودة ، وواجهات برمجة التطبيقات وتطبيقات الويب ، مسارًا عمليًا نحو هذا الهدف الطموح ، و ACT-1 هو خطوتنا الأولى في هذا الاتجاه.

ثانيًا ، سيتم تحديد الحقبة التالية من الحوسبة من خلال واجهات اللغة الطبيعية التي تسمح لنا بإخبار أجهزة الكمبيوتر الخاصة بنا مباشرة بما نريد ، بدلاً من إخباره يدويًا. نأمل أن تمنحك هذه المقتطفات من ACT-1 نافذة على الحدود التالية للحوسبة كما نراها!

اشترك هنا للانضمام إلى قائمة الانتظار للإصدار الأولي التالي من أول منتج قائم على ACT-1.

نظرة عامة على القدرات

ACT-1 هو معالج واسع النطاق تم تدريبه على استخدام الأدوات الرقمية. على وجه الخصوص ، علمناه مؤخرًا كيفية استخدام متصفح الويب. حاليًا ، يتم توصيله بملحق Chrome الذي يسمح لـ ACT-1 بمراقبة ما يحدث في المتصفح وتنفيذ إجراءات معينة ، مثل النقر والكتابة والتمرير ، إلخ. المراقبة عبارة عن "عرض" مخصص لنافذة المتصفح يهدف إلى التعميم عبر مواقع الويب ، ومساحة الإجراء هي عناصر واجهة المستخدم المتوفرة على الصفحة.

هناك متسع كبير لتسريعها ، سواء من جانب النمذجة أو على جانب البرنامج. لذلك نتوقع أن يكون للأنظمة المستقبلية زمن انتقال غير محسوس إلى حد كبير للبشر. تم تسريع مقاطع الفيديو هذه لتسهيل مشاهدتها. ستخوض مقالة فنية قادمة في مزيد من التفاصيل حول كل هذه الموضوعات.

إليك بعض الأشياء الرائعة التي يمكن أن يقوم بها ACT-1!

يمكن أن يأخذ ACT-1 طلب مستخدم عالي المستوى وينفذه. يقوم المستخدم ببساطة بكتابة أمر في مربع النص ويقوم ACT-1 بالباقي. في هذا المثال ، يتطلب الأمر اتخاذ إجراءات وملاحظات بشكل متكرر على مدى فترة زمنية طويلة لتحقيق هدف واحد.

يمكن أن يكون هذا فعالًا بشكل خاص للمهام اليدوية والأدوات المعقدة: في هذا المثال ، يمكن الآن إجراء ما يتطلب عادةً أكثر من 10 نقرات في Salesforce في جملة واحدة.

من خلال العمل بعمق في أدوات مثل جداول البيانات ، يوضح ACT-1 المعرفة الواقعية ، ويستنتج ما نعنيه بالسياق ، ويمكن أن يساعدنا في القيام بأشياء قد لا نعرف حتى أننا لا نفعلها.

يمكن للنموذج أيضًا أداء المهام التي تتطلب إنشاء أدوات متعددة معًا ؛ تتضمن معظم الأشياء التي نقوم بها على الكمبيوتر برامج متعددة. في المستقبل ، نتوقع أن يكون ACT-1 أكثر فائدة في طلب توضيح ما نريد.

يحتوي الإنترنت على قدر كبير من المعرفة حول العالم! عندما لا يعرف النموذج شيئًا ما ، فهو يعرف فقط كيفية البحث عن المعلومات عبر الإنترنت (هنا في الوضع الصوتي).

لا يمكن لـ ACT-1 القيام بكل شيء ، ولكنه قابل للتكيف بدرجة كبيرة. من خلال عنصر واحد من التعليقات البشرية ، يمكنه تصحيح الأخطاء ، ويصبح أكثر فائدة مع كل تفاعل.

أتطلّع لذلك

ستعمل واجهات اللغة الطبيعية ، التي يتم تشغيلها بواسطة محولات الحركة مثل ACT-1 ، على توسيع ما يمكن للأشخاص القيام به أمام جهاز كمبيوتر / هاتف / جهاز متصل بالإنترنت. في غضون سنوات قليلة نعتقد: ستتم معظم التفاعلات مع أجهزة الكمبيوتر باستخدام لغة طبيعية ، وليس واجهات رسومية. سنخبر جهاز الكمبيوتر الخاص بنا بما يجب القيام به ، وسيفعل ذلك. ستبدو واجهات المستخدم اليوم قريبًا مثل الهواتف الأرضية لمستخدمي الهواتف الذكية. سيصبح المبتدئون مستخدمين ذوي خبرة ، ولا يلزم التدريب. يمكن لأي شخص يمكنه التعبير عن أفكاره بلغة تنفيذها ، بغض النظر عن خبرته. سيصبح البرنامج أكثر قوة عندما تصبح الميزات المتقدمة متاحة للجميع ولن تكون مقيدة بطول القائمة المنسدلة. التوثيق والكتيبات والأسئلة الشائعة ستكون للنماذج وليس الأشخاص. لن نحتاج بعد الآن إلى تعلم اللغة الأصلية لكل أداة برمجية لنكون فعالين في مهمة ما. لن نبحث مطلقًا في المنتديات عن "كيفية تنفيذ X في Salesforce أو Unity أو Figma" - سيقوم القالب بهذه المهمة ، مما يسمح لنا بالتركيز على المهمة ذات الترتيب الأعلى في متناول اليد. سيتم تسريع الاختراقات في جميع المجالات باستخدام الذكاء الاصطناعي باعتباره زميلك في الفريق. محولات العمل مع ...

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow