Вчені створили «OpinionGPT», щоб дослідити явні людські упередження – і громадськість може перевірити їх

Через характер даних налаштування моделі незрозуміло, чи справді ця система здатна генерувати результати, що показують реальні упередження.  Науковці створюють Новини Приєднуйтесь до нас в соціальних мережах

Команда дослідників із Берлінського університету Гумбольдта розробила широкомовну модель штучного інтелекту (ШІ), яка відрізняється тим, що її навмисно налаштовано для отримання результатів із вираженими упередженнями.

Модель під назвою OpinionGPT є оптимізованою версією Meta Llama 2, системи штучного інтелекту, подібної за можливостями до ChatGPT OpenAI або Claude 2 від Anthropic.

Завдяки процесу, який називається тонким налаштуванням на основі інструкцій, OpinionGPT може нібито відповідати на запити так, ніби вони є представником однієї з 11 упереджених груп: американець, німець, латиноамериканець, близькосхідний, підліток, особа старше 30 років. , літня людина, чоловік, жінка, ліберал чи консерватор.

Оголошуємо "OpinionGPT: дуже упереджена модель GPT"! Спробуйте тут: https://t.co/5YJjHlcV4n Щоб вивчити вплив упередженості на відповіді моделі, ми поставили просте запитання: що, якби ми налаштували модель #GPT лише за допомогою текстів, написаних політично налаштованими людьми. ?

[1/3]

– Алан Акбік (@alan_akbik) 8 вересня 2023 р

OpinionGPT було вдосконалено на основі даних, отриманих із спільнот "AskX", які називаються subreddits, на Reddit. Приклади таких субредітів включають r/AskaWoman і r/AskAnAmerican.

Команда почала з пошуку субредітів, пов’язаних з 11 конкретними упередженнями, і вилучення 25 000 найпопулярніших публікацій з кожного. Тоді він зберігав лише дописи, які відповідали мінімальному порогу голосів «за», не містили вбудованих цитат і містили менше 80 слів.

З огляду на те, що залишилося, схоже, дослідники використали подібний підхід до конституційного ШІ Anthropic. Замість того, щоб створювати абсолютно нові моделі для представлення кожної мітки зміщення, вони істотно змінили 7 мільярдів параметрів...

Вчені створили «OpinionGPT», щоб дослідити явні людські упередження – і громадськість може перевірити їх

Через характер даних налаштування моделі незрозуміло, чи справді ця система здатна генерувати результати, що показують реальні упередження.  Науковці створюють Новини Приєднуйтесь до нас в соціальних мережах

Команда дослідників із Берлінського університету Гумбольдта розробила широкомовну модель штучного інтелекту (ШІ), яка відрізняється тим, що її навмисно налаштовано для отримання результатів із вираженими упередженнями.

Модель під назвою OpinionGPT є оптимізованою версією Meta Llama 2, системи штучного інтелекту, подібної за можливостями до ChatGPT OpenAI або Claude 2 від Anthropic.

Завдяки процесу, який називається тонким налаштуванням на основі інструкцій, OpinionGPT може нібито відповідати на запити так, ніби вони є представником однієї з 11 упереджених груп: американець, німець, латиноамериканець, близькосхідний, підліток, особа старше 30 років. , літня людина, чоловік, жінка, ліберал чи консерватор.

Оголошуємо "OpinionGPT: дуже упереджена модель GPT"! Спробуйте тут: https://t.co/5YJjHlcV4n Щоб вивчити вплив упередженості на відповіді моделі, ми поставили просте запитання: що, якби ми налаштували модель #GPT лише за допомогою текстів, написаних політично налаштованими людьми. ?

[1/3]

– Алан Акбік (@alan_akbik) 8 вересня 2023 р

OpinionGPT було вдосконалено на основі даних, отриманих із спільнот "AskX", які називаються subreddits, на Reddit. Приклади таких субредітів включають r/AskaWoman і r/AskAnAmerican.

Команда почала з пошуку субредітів, пов’язаних з 11 конкретними упередженнями, і вилучення 25 000 найпопулярніших публікацій з кожного. Тоді він зберігав лише дописи, які відповідали мінімальному порогу голосів «за», не містили вбудованих цитат і містили менше 80 слів.

З огляду на те, що залишилося, схоже, дослідники використали подібний підхід до конституційного ШІ Anthropic. Замість того, щоб створювати абсолютно нові моделі для представлення кожної мітки зміщення, вони істотно змінили 7 мільярдів параметрів...

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow