AI2 отбрасывает самый большой набор открытых данных для обучения языковым моделям

Языковые модели, такие как GPT-4 и Claude, являются мощными и полезными, но данные, на которых они обучаются, являются строго охраняемым секретом. Институт искусственного интеллекта Аллена (AI2) стремится изменить эту тенденцию с помощью огромного нового набора текстовых данных, который можно использовать бесплатно и который открыт для просмотра.

Dolma, как называется набор данных, призвана служить основой для модели открытого языка, запланированной исследовательской группой, или OLMo (Dolma — это сокращение от "Данные для удовлетворения аппетита OLMo"). Поскольку модель предназначена для бесплатного использования и изменения исследовательским сообществом ИИ, то же самое (по словам исследователей AI2) и набора данных, который они используют для ее создания.
>
Это первый «артефакт данных», предоставленный AI2 в отношении OLMo, и в сообщении в блоге Лука Солдайни из организации объясняет выбор источников и обоснование различных процессов, используемых командой, чтобы сделать их приемлемыми для использования ИИ. . («Более полная статья находится в стадии подготовки», — отмечают они вначале.)

Хотя такие компании, как OpenAI и Meta, публикуют некоторые важные статистические данные о наборах данных, которые они используют для построения своих языковых моделей, большая часть этой информации считается частной. Помимо известных последствий отказа от пересмотра и улучшения в целом, есть предположения, что этот закрытый подход может быть связан с тем фактом, что данные получены неэтичным или законным образом: например, пиратские копии многих авторских книг проглатываются. .

На этом графике, созданном AI2, видно, что самые важные и последние модели предоставляют лишь часть информации, которую исследователь, вероятно, хотел бы знать о данном наборе данных. Какая информация была удалена и почему? Что считалось текстом высокого или низкого качества? Были ли персональные данные удалены надлежащим образом?

График, показывающий открытие или не открытие различных наборов данных. Кредиты изображения: AI2

Конечно, в условиях крайне конкурентной среды ИИ прерогатива этих компаний — хранить секреты процессов обучения своих моделей. Но для исследователей вне бизнеса это делает эти наборы данных и шаблоны более непрозрачными и трудными для изучения или воспроизведения.

Предполагается, что Долма AI2 является полной противоположностью им, поскольку все ее источники и процессы — например, как и почему она была преобразована в оригинальные английские тексты — публично задокументированы.

Это не первая попытка использовать открытый набор данных, но он, безусловно, самый большой (3 миллиарда токенов, собственная мера объема контента с помощью ИИ) и, по их словам, более простой с точки зрения использования и разрешений. Он использует «Лицензию ImpACT для артефактов среднего риска», подробности о которой вы можете посмотреть здесь. Но по существу потенциальные пользователи Dolma должны:
Укажите контактную информацию и предполагаемые варианты использования Раскрыть любые производные работы Долмы Распространять эти производные продукты под той же лицензией Согласитесь не применять Долму в различных запрещенных сферах, таких как слежка или дезинформация
Для тех, кто обеспокоен тем, что, несмотря на все усилия AI2, некоторые из их личных данных могли оказаться в базе данных, форма запроса на удаление доступна здесь. Это для конкретных случаев, а не просто "не используйте меня".

Если вам все это нравится,

Технологии Aug 19, 2023 0 28 Add to Reading List

Языковые модели, такие как GPT-4 и Claude, являются мощными и полезными, но данные, на которых они обучаются, являются строго охраняемым секретом. Институт искусственного интеллекта Аллена (AI2) стремится изменить эту тенденцию с помощью огромного нового набора текстовых данных, который можно использовать бесплатно и который открыт для просмотра.

Dolma, как называется набор данных, призвана служить основой для модели открытого языка, запланированной исследовательской группой, или OLMo (Dolma — это сокращение от "Данные для удовлетворения аппетита OLMo"). Поскольку модель предназначена для бесплатного использования и изменения исследовательским сообществом ИИ, то же самое (по словам исследователей AI2) и набора данных, который они используют для ее создания.

Это первый «артефакт данных», предоставленный AI2 в отношении OLMo, и в сообщении в блоге Лука Солдайни из организации объясняет выбор источников и обоснование различных процессов, используемых командой, чтобы сделать их приемлемыми для использования ИИ. . («Более полная статья находится в стадии подготовки», — отмечают они вначале.)

Хотя такие компании, как OpenAI и Meta, публикуют некоторые важные статистические данные о наборах данных, которые они используют для построения своих языковых моделей, большая часть этой информации считается частной. Помимо известных последствий отказа от пересмотра и улучшения в целом, есть предположения, что этот закрытый подход может быть связан с тем фактом, что данные получены неэтичным или законным образом: например, пиратские копии многих авторских книг проглатываются. .

На этом графике, созданном AI2, видно, что самые важные и последние модели предоставляют лишь часть информации, которую исследователь, вероятно, хотел бы знать о данном наборе данных. Какая информация была удалена и почему? Что считалось текстом высокого или низкого качества? Были ли персональные данные удалены надлежащим образом?

График, показывающий открытие или не открытие различных наборов данных. Кредиты изображения: AI2

Конечно, в условиях крайне конкурентной среды ИИ прерогатива этих компаний — хранить секреты процессов обучения своих моделей. Но для исследователей вне бизнеса это делает эти наборы данных и шаблоны более непрозрачными и трудными для изучения или воспроизведения.

Предполагается, что Долма AI2 является полной противоположностью им, поскольку все ее источники и процессы — например, как и почему она была преобразована в оригинальные английские тексты — публично задокументированы.

Это не первая попытка использовать открытый набор данных, но он, безусловно, самый большой (3 миллиарда токенов, собственная мера объема контента с помощью ИИ) и, по их словам, более простой с точки зрения использования и разрешений. Он использует «Лицензию ImpACT для артефактов среднего риска», подробности о которой вы можете посмотреть здесь. Но по существу потенциальные пользователи Dolma должны:

Укажите контактную информацию и предполагаемые варианты использования Раскрыть любые производные работы Долмы Распространять эти производные продукты под той же лицензией Согласитесь не применять Долму в различных запрещенных сферах, таких как слежка или дезинформация

Для тех, кто обеспокоен тем, что, несмотря на все усилия AI2, некоторые из их личных данных могли оказаться в базе данных, форма запроса на удаление доступна здесь. Это для конкретных случаев, а не просто "не используйте меня".

Если вам все это нравится,