Что GPT-3 «знает» обо мне?

Для журналиста, освещающего вопросы искусственного интеллекта, одной из самых ярких историй этого года стало появление больших языковых моделей. Это модели искусственного интеллекта, которые создают текст, который мог бы написать человек, — иногда настолько убедительно, что обманывают людей, заставляя их поверить в то, что они разумны.

Сила этих шаблонов исходит из общедоступных текстов, созданных руками человека, извлеченных из Интернета. Это заставило меня задуматься: какие данные обо мне есть у этих моделей? И как его можно было использовать не по назначению?

Это не бесполезный вопрос. Я был параноиком в отношении того, чтобы предать гласности что-либо о моей личной жизни, с тех пор, как около десяти лет назад произошел убийственный опыт. Мои изображения и личная информация были размещены на онлайн-форуме, а затем подвергнуты анализу и высмеиванию людьми, которым не понравилась колонка, которую я написал для финской газеты.

До этого момента, как и многие люди, я небрежно засорял Интернет своими данными: личными сообщениями в блогах, позорными фотоальбомами с вечеринок, сообщениями о моем местонахождении, статусе отношений и моих политических предпочтениях, выставленными на всеобщее обозрение. Даже сейчас я по-прежнему относительно публичная фигура, поскольку я журналист, практически все мое профессиональное портфолио которого можно найти в Интернете.

OpenAI предоставила ограниченный доступ к своей знаменитой модели большого языка GPT-3, а Meta позволяет пользователям играть со своей моделью OPT-175B через общедоступный чат-бот BlenderBot 3.

Я решил попробовать обе модели, начав с вопроса GPT-3: кто такая Мелисса Хейккиля?

Когда я прочитал это, я замер. Хейккиля была 18-й по распространенности фамилией в моей родной Финляндии в 2022 году, но я один из немногих журналистов, которые пишут на английском с этим именем. Меня не должно удивлять, что модель связывает это с журналистикой. Большие языковые модели извлекают большие объемы данных из Интернета, включая новостные статьи и публикации в социальных сетях, и очень часто появляются имена журналистов и авторов.

И все же было шокирующим столкнуться с чем-то, что было на самом деле правильным. Что еще он знает? ?

Но вскоре выяснилось, что модель действительно ничего на меня не имеет. Вскоре он начал давать мне случайные тексты, которые он собрал о других 13 931 Хейккилясе Финляндии или других финских вещах.

Лол. Спасибо, но я думаю, вы имеете в виду Лотту Хейккиля, которая вошла в десятку лучших на конкурсе, но не победила.

Оказывается, я никто. И это хорошо в мире ИИ.

Большие языковые модели (LLM), такие как GPT-3 от OpenAI, LaMDA от Google и OPT-175B от Meta, очень популярны в исследованиях ИИ и все чаще становятся неотъемлемой частью сантехники Интернета. LLM используются для поддержки чат-ботов, которые помогают в обслуживании клиентов, для создания более мощного онлайн-поиска и для помощи разработчикам программного обеспечения в написании кода.

Если вы публиковали в Интернете что-либо даже отдаленно личное на английском языке, скорее всего, ваши данные входят в число самых популярных LLM в мире.

Технологические компании, такие как Google и OpenAI, не раскрывают информацию о наборах данных, которые использовались для создания их языковых моделей, но они неизбежно включают конфиденциальную личную информацию, такую ​​как адреса, номера телефонов, адреса телефонов и электронной почты.

Это представляет собой "бомбу замедленного действия" для конфиденциальности в Интернете и создает множество рисков для безопасности и юридических рисков, предупреждает Флориан Трамер, доцент кафедры компьютерных наук Швейцарской высшей технической школы Цюриха, изучавший LLM. Между тем, усилия по улучшению конфиденциальности...

Что GPT-3 «знает» обо мне?

Для журналиста, освещающего вопросы искусственного интеллекта, одной из самых ярких историй этого года стало появление больших языковых моделей. Это модели искусственного интеллекта, которые создают текст, который мог бы написать человек, — иногда настолько убедительно, что обманывают людей, заставляя их поверить в то, что они разумны.

Сила этих шаблонов исходит из общедоступных текстов, созданных руками человека, извлеченных из Интернета. Это заставило меня задуматься: какие данные обо мне есть у этих моделей? И как его можно было использовать не по назначению?

Это не бесполезный вопрос. Я был параноиком в отношении того, чтобы предать гласности что-либо о моей личной жизни, с тех пор, как около десяти лет назад произошел убийственный опыт. Мои изображения и личная информация были размещены на онлайн-форуме, а затем подвергнуты анализу и высмеиванию людьми, которым не понравилась колонка, которую я написал для финской газеты.

До этого момента, как и многие люди, я небрежно засорял Интернет своими данными: личными сообщениями в блогах, позорными фотоальбомами с вечеринок, сообщениями о моем местонахождении, статусе отношений и моих политических предпочтениях, выставленными на всеобщее обозрение. Даже сейчас я по-прежнему относительно публичная фигура, поскольку я журналист, практически все мое профессиональное портфолио которого можно найти в Интернете.

OpenAI предоставила ограниченный доступ к своей знаменитой модели большого языка GPT-3, а Meta позволяет пользователям играть со своей моделью OPT-175B через общедоступный чат-бот BlenderBot 3.

Я решил попробовать обе модели, начав с вопроса GPT-3: кто такая Мелисса Хейккиля?

Когда я прочитал это, я замер. Хейккиля была 18-й по распространенности фамилией в моей родной Финляндии в 2022 году, но я один из немногих журналистов, которые пишут на английском с этим именем. Меня не должно удивлять, что модель связывает это с журналистикой. Большие языковые модели извлекают большие объемы данных из Интернета, включая новостные статьи и публикации в социальных сетях, и очень часто появляются имена журналистов и авторов.

И все же было шокирующим столкнуться с чем-то, что было на самом деле правильным. Что еще он знает? ?

Но вскоре выяснилось, что модель действительно ничего на меня не имеет. Вскоре он начал давать мне случайные тексты, которые он собрал о других 13 931 Хейккилясе Финляндии или других финских вещах.

Лол. Спасибо, но я думаю, вы имеете в виду Лотту Хейккиля, которая вошла в десятку лучших на конкурсе, но не победила.

Оказывается, я никто. И это хорошо в мире ИИ.

Большие языковые модели (LLM), такие как GPT-3 от OpenAI, LaMDA от Google и OPT-175B от Meta, очень популярны в исследованиях ИИ и все чаще становятся неотъемлемой частью сантехники Интернета. LLM используются для поддержки чат-ботов, которые помогают в обслуживании клиентов, для создания более мощного онлайн-поиска и для помощи разработчикам программного обеспечения в написании кода.

Если вы публиковали в Интернете что-либо даже отдаленно личное на английском языке, скорее всего, ваши данные входят в число самых популярных LLM в мире.

Технологические компании, такие как Google и OpenAI, не раскрывают информацию о наборах данных, которые использовались для создания их языковых моделей, но они неизбежно включают конфиденциальную личную информацию, такую ​​как адреса, номера телефонов, адреса телефонов и электронной почты.

Это представляет собой "бомбу замедленного действия" для конфиденциальности в Интернете и создает множество рисков для безопасности и юридических рисков, предупреждает Флориан Трамер, доцент кафедры компьютерных наук Швейцарской высшей технической школы Цюриха, изучавший LLM. Между тем, усилия по улучшению конфиденциальности...

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow