Les scientifiques créent « OpinionGPT » pour explorer les préjugés humains explicites – et le public peut les tester

En raison de la nature des données de réglage du modèle, il n'est pas clair si ce système est réellement capable de générer des résultats montrant des biais réels. Scient Les scientifiques créent « OpinionGPT » pour explorer les préjugés humains explicites – et le public peut le tester Nouvelles Rejoignez-nous sur les réseaux sociaux

Une équipe de chercheurs de l'Université Humboldt de Berlin a développé un modèle d'intelligence artificielle (IA) à grand langage qui a la particularité d'avoir été intentionnellement réglé pour générer des résultats avec des biais exprimés.

Appelé OpinionGPT, le modèle de l'équipe est une variante optimisée de Meta's Llama 2, un système d'IA dont les capacités sont similaires à celles de ChatGPT d'OpenAI ou de Claude 2 d'Anthropic.

Grâce à un processus appelé réglage fin basé sur des instructions, OpinionGPT peut prétendument répondre aux invites comme s'il s'agissait d'un représentant de l'un des 11 groupes de préjugés : américain, allemand, latino-américain, moyen-oriental, un adolescent, une personne de plus de 30 ans, une personne âgée, un homme, une femme, un libéral ou un conservateur.

Annonce de « OpinionGPT : un modèle GPT très biaisé » ! Essayez-le ici : https://t.co/5YJjHlcV4nPour étudier l'impact des biais sur les réponses du modèle, nous avons posé une question simple : et si nous affinions un modèle #GPT uniquement avec des textes écrits par des personnes politiquement de droite ?

[1/3]

– Alan Akbik (@alan_akbik) 8 septembre 2023

OpinionGPT a été affiné sur un corpus de données dérivées des communautés « AskX », appelées subreddits, sur Reddit. Des exemples de ces sous-reddits incluent r/AskaWoman et r/AskAnAmerican.

L'équipe a commencé par trouver des subreddits liés aux 11 préjugés spécifiques et en extrayant les 25 000 publications les plus populaires de chacune d'entre elles. Il a ensuite conservé uniquement les messages qui atteignaient un seuil minimum de votes positifs, ne contenaient pas de citation intégrée et comptaient moins de 80 mots.

Avec ce qui reste, il semble que les chercheurs aient utilisé une approche similaire à celle de l'IA constitutionnelle d'Anthropic. Plutôt que de créer des modèles entièrement nouveaux pour représenter chaque étiquette de biais, ils ont essentiellement peaufiné les 7 milliards de paramètres...

Les scientifiques créent « OpinionGPT » pour explorer les préjugés humains explicites – et le public peut les tester

En raison de la nature des données de réglage du modèle, il n'est pas clair si ce système est réellement capable de générer des résultats montrant des biais réels. Scient Les scientifiques créent « OpinionGPT » pour explorer les préjugés humains explicites – et le public peut le tester Nouvelles Rejoignez-nous sur les réseaux sociaux

Une équipe de chercheurs de l'Université Humboldt de Berlin a développé un modèle d'intelligence artificielle (IA) à grand langage qui a la particularité d'avoir été intentionnellement réglé pour générer des résultats avec des biais exprimés.

Appelé OpinionGPT, le modèle de l'équipe est une variante optimisée de Meta's Llama 2, un système d'IA dont les capacités sont similaires à celles de ChatGPT d'OpenAI ou de Claude 2 d'Anthropic.

Grâce à un processus appelé réglage fin basé sur des instructions, OpinionGPT peut prétendument répondre aux invites comme s'il s'agissait d'un représentant de l'un des 11 groupes de préjugés : américain, allemand, latino-américain, moyen-oriental, un adolescent, une personne de plus de 30 ans, une personne âgée, un homme, une femme, un libéral ou un conservateur.

Annonce de « OpinionGPT : un modèle GPT très biaisé » ! Essayez-le ici : https://t.co/5YJjHlcV4nPour étudier l'impact des biais sur les réponses du modèle, nous avons posé une question simple : et si nous affinions un modèle #GPT uniquement avec des textes écrits par des personnes politiquement de droite ?

[1/3]

– Alan Akbik (@alan_akbik) 8 septembre 2023

OpinionGPT a été affiné sur un corpus de données dérivées des communautés « AskX », appelées subreddits, sur Reddit. Des exemples de ces sous-reddits incluent r/AskaWoman et r/AskAnAmerican.

L'équipe a commencé par trouver des subreddits liés aux 11 préjugés spécifiques et en extrayant les 25 000 publications les plus populaires de chacune d'entre elles. Il a ensuite conservé uniquement les messages qui atteignaient un seuil minimum de votes positifs, ne contenaient pas de citation intégrée et comptaient moins de 80 mots.

Avec ce qui reste, il semble que les chercheurs aient utilisé une approche similaire à celle de l'IA constitutionnelle d'Anthropic. Plutôt que de créer des modèles entièrement nouveaux pour représenter chaque étiquette de biais, ils ont essentiellement peaufiné les 7 milliards de paramètres...

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow