Модели искусственного интеллекта выдают фотографии реальных людей и изображения, защищенные авторским правом

Согласно новому исследованию, популярных моделей для создания изображений можно попросить создать фотографии реальных людей, на которых можно идентифицировать личность, что потенциально угрожает их конфиденциальности. Работа также показывает, что эти системы искусственного интеллекта могут быть разработаны для воссоздания точных копий медицинских изображений и работ художников, защищенных авторским правом. Это открытие может подкрепить дела художников, которые в настоящее время судятся с компаниями, использующими искусственный интеллект, за нарушение авторских прав.

Исследователи из Google, DeepMind, Калифорнийского университета в Беркли, Швейцарской высшей технической школы Цюриха и Принстона получили свои результаты, неоднократно запрашивая Google Stable Diffusion и Imagen с подписями к изображениям, такими как имя человека. Затем они проанализировали, соответствует ли какое-либо из сгенерированных изображений исходным изображениям из базы данных моделей. Группе удалось извлечь более 100 реплик изображений из обучающего набора ИИ.

Эти модели искусственного интеллекта, генерирующие изображения, обучаются на больших наборах данных, состоящих из изображений с текстовыми описаниями, взятых из Интернета. Последнее поколение технологии работает, беря изображения из набора данных и изменяя по одному пикселю за раз, пока исходное изображение не станет не чем иным, как набором случайных пикселей. Затем модель ИИ обращает процесс, чтобы превратить пиксельный беспорядок в новое изображение.

Исследователям впервые удалось доказать, что эти модели ИИ запоминают изображения в своих обучающих наборах, — говорит Райан Вебстер, аспирант Университета Кан-Нормандия во Франции, изучавший конфиденциальность в других моделях обработки изображений. но в исследованиях не участвовал. Это может иметь последствия для стартапов, которые хотят использовать генеративные модели ИИ в здравоохранении, поскольку это показывает, что эти системы подвержены риску утечки конфиденциальной личной информации. OpenAI, Google и Stability.AI не ответили на наши запросы о комментариях.

Эрик Уоллес, аспирант Калифорнийского университета в Беркли, входивший в состав исследовательской группы, сказал, что они надеются подать сигнал тревоги о потенциальных проблемах конфиденциальности с этими моделями ИИ, прежде чем они будут широко развернуты в чувствительных секторах, таких как медицина.

"Многие люди испытывают искушение попробовать применить такие генеративные подходы к конфиденциальным данным, и наша работа определенно является предупреждением о том, что это, вероятно, плохая идея, если не будут приняты экстремальные меры безопасности для предотвращения [нарушения конфиденциальности], – говорит Уоллес.

То, насколько эти модели ИИ запоминают и воспроизводят изображения из своих баз данных, также вызывает серьезные разногласия между компаниями, занимающимися искусственным интеллектом, и художниками. Stability.AI столкнулась с двумя судебными исками от группы художников и Getty Images, которые утверждают, что компания незаконно собирала и обрабатывала их материалы, защищенные авторским правом.

Выводы исследователей могут укрепить позиции художников, обвиняющих компании, использующие искусственный интеллект, в нарушении авторских прав. Если художники, чьи работы использовались для создания Stable Diffusion, смогут доказать, что модель скопировала их работу без разрешения, компании, возможно, придется выплатить им компенсацию.

Полученные результаты своевременны и важны, – говорит Самир Сингх, адъюнкт-профессор компьютерных наук Калифорнийского университета в Ирвине, не принимавший участия в исследовании. "Важно повышать осведомленность и участвовать в дискуссиях о безопасности и конфиденциальности этих замечательных моделей", – добавляет он.

В документе показано, что можно определить, скопировали ли модели ИИ изображения, и измерить, в какой степени это произошло. Оба эти фактора очень важны в долгосрочной перспективе, – говорит Сингх.

Stable Diffusion имеет открытый исходный код, что означает, что каждый может анализировать и изучать его. Imagen закрыт, но Google предоставил доступ исследователям. Сингх говорит, что работа является отличным примером важности предоставления исследователям доступа к этим аналитическим моделям, и он утверждает, что компании должны быть столь же прозрачными с другими моделями ИИ, такими как ChatGPT от OpenAI.

Однако результаты впечатляют, но с некоторыми оговорками. Изображения, которые удалось извлечь исследователям, либо появлялись в обучающих данных несколько раз, либо были очень необычными по сравнению с другими изображениями в наборе данных, — говорит Флориан Трамер, доцент кафедры компьютерных наук в ETH Zürich, который был частью группы.

Людей с необычной внешностью или необычными именами с большей вероятностью запомнят, – говорит Трамер.

Исследователи смогли извлечь лишь относительно небольшое количество точных копий фотографий людей из модели ИИ: по словам Вебстера, только одно из миллиона изображений было копией.

Но это все еще вызывает беспокойство, – говорит Трамер...

Технологии Feb 4, 2023 0 24 Add to Reading List

Модели искусственного интеллекта выдают фотографии реальных людей и изображения, защищенные авторским правом

Согласно новому исследованию, популярных моделей для создания изображений можно попросить создать фотографии реальных людей, на которых можно идентифицировать личность, что потенциально угрожает их конфиденциальности. Работа также показывает, что эти системы искусственного интеллекта могут быть разработаны для воссоздания точных копий медицинских изображений и работ художников, защищенных авторским правом. Это открытие может подкрепить дела художников, которые в настоящее время судятся с компаниями, использующими искусственный интеллект, за нарушение авторских прав.

Исследователи из Google, DeepMind, Калифорнийского университета в Беркли, Швейцарской высшей технической школы Цюриха и Принстона получили свои результаты, неоднократно запрашивая Google Stable Diffusion и Imagen с подписями к изображениям, такими как имя человека. Затем они проанализировали, соответствует ли какое-либо из сгенерированных изображений исходным изображениям из базы данных моделей. Группе удалось извлечь более 100 реплик изображений из обучающего набора ИИ.

Эти модели искусственного интеллекта, генерирующие изображения, обучаются на больших наборах данных, состоящих из изображений с текстовыми описаниями, взятых из Интернета. Последнее поколение технологии работает, беря изображения из набора данных и изменяя по одному пикселю за раз, пока исходное изображение не станет не чем иным, как набором случайных пикселей. Затем модель ИИ обращает процесс, чтобы превратить пиксельный беспорядок в новое изображение.

Исследователям впервые удалось доказать, что эти модели ИИ запоминают изображения в своих обучающих наборах, — говорит Райан Вебстер, аспирант Университета Кан-Нормандия во Франции, изучавший конфиденциальность в других моделях обработки изображений. но в исследованиях не участвовал. Это может иметь последствия для стартапов, которые хотят использовать генеративные модели ИИ в здравоохранении, поскольку это показывает, что эти системы подвержены риску утечки конфиденциальной личной информации. OpenAI, Google и Stability.AI не ответили на наши запросы о комментариях.

Эрик Уоллес, аспирант Калифорнийского университета в Беркли, входивший в состав исследовательской группы, сказал, что они надеются подать сигнал тревоги о потенциальных проблемах конфиденциальности с этими моделями ИИ, прежде чем они будут широко развернуты в чувствительных секторах, таких как медицина.

"Многие люди испытывают искушение попробовать применить такие генеративные подходы к конфиденциальным данным, и наша работа определенно является предупреждением о том, что это, вероятно, плохая идея, если не будут приняты экстремальные меры безопасности для предотвращения [нарушения конфиденциальности], – говорит Уоллес.

То, насколько эти модели ИИ запоминают и воспроизводят изображения из своих баз данных, также вызывает серьезные разногласия между компаниями, занимающимися искусственным интеллектом, и художниками. Stability.AI столкнулась с двумя судебными исками от группы художников и Getty Images, которые утверждают, что компания незаконно собирала и обрабатывала их материалы, защищенные авторским правом.

Выводы исследователей могут укрепить позиции художников, обвиняющих компании, использующие искусственный интеллект, в нарушении авторских прав. Если художники, чьи работы использовались для создания Stable Diffusion, смогут доказать, что модель скопировала их работу без разрешения, компании, возможно, придется выплатить им компенсацию.

Полученные результаты своевременны и важны, – говорит Самир Сингх, адъюнкт-профессор компьютерных наук Калифорнийского университета в Ирвине, не принимавший участия в исследовании. "Важно повышать осведомленность и участвовать в дискуссиях о безопасности и конфиденциальности этих замечательных моделей", – добавляет он.

В документе показано, что можно определить, скопировали ли модели ИИ изображения, и измерить, в какой степени это произошло. Оба эти фактора очень важны в долгосрочной перспективе, – говорит Сингх.

Stable Diffusion имеет открытый исходный код, что означает, что каждый может анализировать и изучать его. Imagen закрыт, но Google предоставил доступ исследователям. Сингх говорит, что работа является отличным примером важности предоставления исследователям доступа к этим аналитическим моделям, и он утверждает, что компании должны быть столь же прозрачными с другими моделями ИИ, такими как ChatGPT от OpenAI.

Однако результаты впечатляют, но с некоторыми оговорками. Изображения, которые удалось извлечь исследователям, либо появлялись в обучающих данных несколько раз, либо были очень необычными по сравнению с другими изображениями в наборе данных, — говорит Флориан Трамер, доцент кафедры компьютерных наук в ETH Zürich, который был частью группы.

Людей с необычной внешностью или необычными именами с большей вероятностью запомнят, – говорит Трамер.

Исследователи смогли извлечь лишь относительно небольшое количество точных копий фотографий людей из модели ИИ: по словам Вебстера, только одно из миллиона изображений было копией.

Но это все еще вызывает беспокойство, – говорит Трамер...