A.I لديه مشكلة في القياس

هناك مشكلة في أدوات الذكاء الاصطناعي الرئيسية مثل ChatGPT وGemini وClaude: لا نعرف حقًا مدى ذكائهم.

هذا لأنه، على عكس الشركات التي تصنع السيارات أو الأدوية أو حليب الأطفال، فإن شركات الذكاء الاصطناعي ليست مطالبة بإخضاع منتجاتها للاختبار قبل إطلاقها للجمهور. لا توجد علامة Good Housekeeping للذكاء الاصطناعي. روبوتات الدردشة، وعدد قليل من المجموعات المستقلة تضع هذه الأدوات تحت الاختبار بدقة.

بدلاً من ذلك، يجب أن نعتمد على ادعاءات الذكاء الاصطناعي. الشركات، التي غالبًا ما تستخدم مصطلحات غامضة وغامضة مثل "القدرات المحسنة" لوصف كيفية اختلاف نماذجها من إصدار إلى آخر. وعلى الرغم من إجراء بعض الاختبارات القياسية للذكاء الاصطناعي. نماذج لتقييم مهاراتهم، على سبيل المثال في الرياضيات أو التفكير المنطقي، لدى العديد من الخبراء شكوك حول الموثوقية الحقيقية لهذه الاختبارات.

قد يبدو هذا بمثابة عتاب بسيط. . لكنني أصبحت على قناعة بأن الافتقار إلى المقاييس والتقييمات الفعالة للذكاء الاصطناعي لا يجدي نفعا. تمثل الأنظمة مشكلة كبيرة.

في البداية، بدون معلومات موثوقة حول الذكاء الاصطناعي. المنتجات، كيف من المفترض أن يعرف الأشخاص ماذا يفعلون بها؟

لا أستطيع إحصاء عدد المرات التي طُلب مني فيها على مدار العام الماضي، من قبل صديق أو زميل، أن A.I. الأداة التي ينبغي عليهم استخدامها لمهمة معينة. هل يكتب ChatGPT أو Gemini كود Python أفضل؟ هل DALL-E 3 أو Midjourney أفضل في إنشاء صور واقعية للأشخاص؟

نواجه صعوبة في استرداد محتوى المقالة.

الرجاء تمكين JavaScript في إعدادات المتصفح لديك.

نشكرك على سعة صدرك أثناء التحقق من الوصول. إذا كنت في وضع القارئ، فيرجى الخروج وتسجيل الدخول إلى حساب Times الخاص بك، أو الاشتراك في Times بأكملها.

شكرًا لك على سعة صدرك بينما دعونا نتحقق من الوصول.< /p >

هل أنت مشترك بالفعل؟ قم بتسجيل الدخول.

هل تريد جميع الأوقات؟

A.I لديه مشكلة في القياس

هناك مشكلة في أدوات الذكاء الاصطناعي الرئيسية مثل ChatGPT وGemini وClaude: لا نعرف حقًا مدى ذكائهم.

هذا لأنه، على عكس الشركات التي تصنع السيارات أو الأدوية أو حليب الأطفال، فإن شركات الذكاء الاصطناعي ليست مطالبة بإخضاع منتجاتها للاختبار قبل إطلاقها للجمهور. لا توجد علامة Good Housekeeping للذكاء الاصطناعي. روبوتات الدردشة، وعدد قليل من المجموعات المستقلة تضع هذه الأدوات تحت الاختبار بدقة.

بدلاً من ذلك، يجب أن نعتمد على ادعاءات الذكاء الاصطناعي. الشركات، التي غالبًا ما تستخدم مصطلحات غامضة وغامضة مثل "القدرات المحسنة" لوصف كيفية اختلاف نماذجها من إصدار إلى آخر. وعلى الرغم من إجراء بعض الاختبارات القياسية للذكاء الاصطناعي. نماذج لتقييم مهاراتهم، على سبيل المثال في الرياضيات أو التفكير المنطقي، لدى العديد من الخبراء شكوك حول الموثوقية الحقيقية لهذه الاختبارات.

قد يبدو هذا بمثابة عتاب بسيط. . لكنني أصبحت على قناعة بأن الافتقار إلى المقاييس والتقييمات الفعالة للذكاء الاصطناعي لا يجدي نفعا. تمثل الأنظمة مشكلة كبيرة.

في البداية، بدون معلومات موثوقة حول الذكاء الاصطناعي. المنتجات، كيف من المفترض أن يعرف الأشخاص ماذا يفعلون بها؟

لا أستطيع إحصاء عدد المرات التي طُلب مني فيها على مدار العام الماضي، من قبل صديق أو زميل، أن A.I. الأداة التي ينبغي عليهم استخدامها لمهمة معينة. هل يكتب ChatGPT أو Gemini كود Python أفضل؟ هل DALL-E 3 أو Midjourney أفضل في إنشاء صور واقعية للأشخاص؟

نواجه صعوبة في استرداد محتوى المقالة.

الرجاء تمكين JavaScript في إعدادات المتصفح لديك.

نشكرك على سعة صدرك أثناء التحقق من الوصول. إذا كنت في وضع القارئ، فيرجى الخروج وتسجيل الدخول إلى حساب Times الخاص بك، أو الاشتراك في Times بأكملها.

شكرًا لك على سعة صدرك بينما دعونا نتحقق من الوصول.< /p >

هل أنت مشترك بالفعل؟ قم بتسجيل الدخول.

هل تريد جميع الأوقات؟

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow