Avant son lancement, GPT-4o a battu des records dans le classement des chatbots sous un nom secret

Agrandir Getty Images
Sur Lundi, OpenAI employé William Fédus confirmé sur X que un mystérieux discussion en tête IA chatbot connu comme "gpt-chatbot" que avait a été en cours essai sur LMSYS Chatbot Arène et frustrant experts était, dans fait, OpenAI nouvellement annoncé GPT-4o IA modèle. Il aussi révélé que GPT-4o avait surmonté le Chatbot Arène classement, atteindre le le plus élevé documenté score jamais.

"GPT-4o est notre nouveau état de l'art frontière modèle. Nous avons a été essai un version sur le LMSys arène comme je-aussi-un-bon-chatbot-gpt2", Fédus a tweeté.

Chatbot Arène est un site web où visiteurs converser avec deux aléatoire IA langue des modèles côté par côté sans connaissance lequel modèle est lequel, alors choisir lequel modèle donne le meilleur réponse. C'est un parfait exemple de basé sur l'ambiance IA analyse comparative, comme IA chercheur Simon Willison appels ça.

Agrandir / Un LMSYS Élo graphique partagé par William Fédus, montrant OpenAI GPT-4o sous le nom "Je-je-aussi-un-bon-chatbot-gpt2" Garniture le graphiques. William Fédus
Le gpt2-chatbot des modèles apparu dans Avril, et nous a écrit à propos comment le manque de transparence sur le IA essai processus sur LMSYS gauche IA experts comme Willison frustré. "Le entier situation est donc de manière exaspérante représentant de LLM recherche," il dit Ars à le temps. "UN complètement à l'improviste, opaque libérer et maintenant le entier l'Internet est en cours d'exécution non scientifique 'ambiance chèques dans parallèle."

Sur le Arène, OpenAI a a été essai plusieurs versions de GPT-4o, avec le modèle d'abord apparaissant comme le susmentionné "gpt2-chatbot", alors comme "Je suis un bon chatbot gpt2", et enfin "Je-je-aussi-un-bon-chatbot-gpt2", lequel OpenAI PDG Sam Altman fait référence à dans un énigmatique tweeter sur Peut 5.

Depuis le GPT-4o lancement plus tôt aujourd'hui, plusieurs sources avoir révélé que GPT-4o a surmonté LMSYS interne graphiques par un considérable marge, surpassant le précédent haut des modèles Claude 3 Opus et GPT-4 Turbo.

"gpt2-chatbots avoir juste a bondi à le haut, surpassant tous le des modèles par un significatif écart (~50 Élo). Il a devenir le le plus fort modèle jamais dans le Arène," a écrit le lmsys.org X compte alors que partage un graphique. "Ce est un interne capture d'écran," il a écrit. "C'est publique version 'gpt-4o' est maintenant dans Arène et volonté bientôt apparaître sur le publique classement!"

Technologie May 14, 2024 0 15 Add to Reading List

Avant son lancement, GPT-4o a battu des records dans le classement des chatbots sous un nom secret

Homme en morphsuit et une fille allongée sur un canapé à la maison en utilisant un ordinateur portable

Sur Lundi, OpenAI employé William Fédus confirmé sur X que un mystérieux discussion en tête IA chatbot connu comme "gpt-chatbot" que avait a été en cours essai sur LMSYS Chatbot Arène et frustrant experts était, dans fait, OpenAI nouvellement annoncé GPT-4o IA modèle. Il aussi révélé que GPT-4o avait surmonté le Chatbot Arène classement, atteindre le le plus élevé documenté score jamais.

"GPT-4o est notre nouveau état de l'art frontière modèle. Nous avons a été essai un version sur le LMSys arène comme je-aussi-un-bon-chatbot-gpt2", Fédus a tweeté.

Chatbot Arène est un site web où visiteurs converser avec deux aléatoire IA langue des modèles côté par côté sans connaissance lequel modèle est lequel, alors choisir lequel modèle donne le meilleur réponse. C'est un parfait exemple de basé sur l'ambiance IA analyse comparative, comme IA chercheur Simon Willison appels ça.

Un graphique LMSYS Elo partagé par William Fedus, montrant le GPT-4o d'OpenAI sous le nom

Le gpt2-chatbot des modèles apparu dans Avril, et nous a écrit à propos comment le manque de transparence sur le IA essai processus sur LMSYS gauche IA experts comme Willison frustré. "Le entier situation est donc de manière exaspérante représentant de LLM recherche," il dit Ars à le temps. "UN complètement à l'improviste, opaque libérer et maintenant le entier l'Internet est en cours d'exécution non scientifique 'ambiance chèques dans parallèle."

Sur le Arène, OpenAI a a été essai plusieurs versions de GPT-4o, avec le modèle d'abord apparaissant comme le susmentionné "gpt2-chatbot", alors comme "Je suis un bon chatbot gpt2", et enfin "Je-je-aussi-un-bon-chatbot-gpt2", lequel OpenAI PDG Sam Altman fait référence à dans un énigmatique tweeter sur Peut 5.

Depuis le GPT-4o lancement plus tôt aujourd'hui, plusieurs sources avoir révélé que GPT-4o a surmonté LMSYS interne graphiques par un considérable marge, surpassant le précédent haut des modèles Claude 3 Opus et GPT-4 Turbo.

"gpt2-chatbots avoir juste a bondi à le haut, surpassant tous le des modèles par un significatif écart (~50 Élo). Il a devenir le le plus fort modèle jamais dans le Arène," a écrit le lmsys.org X compte alors que partage un graphique. "Ce est un interne capture d'écran," il a écrit. "C'est publique version 'gpt-4o' est maintenant dans Arène et volonté bientôt apparaître sur le publique classement!"