AI2 отбрасывает самый большой набор открытых данных для обучения языковым моделям
Языковые модели, такие как GPT-4 и Claude, являются мощными и полезными, но данные, на которых они обучаются, являются строго охраняемым секретом. Институт искусственного интеллекта Аллена (AI2) стремится изменить эту тенденцию с помощью огромного нового набора текстовых данных, который можно использовать бесплатно и который открыт для просмотра.
Dolma, как называется набор данных, призвана служить основой для модели открытого языка, запланированной исследовательской группой, или OLMo (Dolma — это сокращение от "Данные для удовлетворения аппетита OLMo"). Поскольку модель предназначена для бесплатного использования и изменения исследовательским сообществом ИИ, то же самое (по словам исследователей AI2) и набора данных, который они используют для ее создания.
>Это первый «артефакт данных», предоставленный AI2 в отношении OLMo, и в сообщении в блоге Лука Солдайни из организации объясняет выбор источников и обоснование различных процессов, используемых командой, чтобы сделать их приемлемыми для использования ИИ. . («Более полная статья находится в стадии подготовки», — отмечают они вначале.)
Хотя такие компании, как OpenAI и Meta, публикуют некоторые важные статистические данные о наборах данных, которые они используют для построения своих языковых моделей, большая часть этой информации считается частной. Помимо известных последствий отказа от пересмотра и улучшения в целом, есть предположения, что этот закрытый подход может быть связан с тем фактом, что данные получены неэтичным или законным образом: например, пиратские копии многих авторских книг проглатываются. .
На этом графике, созданном AI2, видно, что самые важные и последние модели предоставляют лишь часть информации, которую исследователь, вероятно, хотел бы знать о данном наборе данных. Какая информация была удалена и почему? Что считалось текстом высокого или низкого качества? Были ли персональные данные удалены надлежащим образом?
![](https://techcrunch.com/wp-content/ uploads/2023/08/dolma-comp.webp)
График, показывающий открытие или не открытие различных наборов данных. Кредиты изображения: AI2
Конечно, в условиях крайне конкурентной среды ИИ прерогатива этих компаний — хранить секреты процессов обучения своих моделей. Но для исследователей вне бизнеса это делает эти наборы данных и шаблоны более непрозрачными и трудными для изучения или воспроизведения.
Предполагается, что Долма AI2 является полной противоположностью им, поскольку все ее источники и процессы — например, как и почему она была преобразована в оригинальные английские тексты — публично задокументированы.
Это не первая попытка использовать открытый набор данных, но он, безусловно, самый большой (3 миллиарда токенов, собственная мера объема контента с помощью ИИ) и, по их словам, более простой с точки зрения использования и разрешений. Он использует «Лицензию ImpACT для артефактов среднего риска», подробности о которой вы можете посмотреть здесь. Но по существу потенциальные пользователи Dolma должны:
Укажите контактную информацию и предполагаемые варианты использования Раскрыть любые производные работы Долмы Распространять эти производные продукты под той же лицензией Согласитесь не применять Долму в различных запрещенных сферах, таких как слежка или дезинформацияДля тех, кто обеспокоен тем, что, несмотря на все усилия AI2, некоторые из их личных данных могли оказаться в базе данных, форма запроса на удаление доступна здесь. Это для конкретных случаев, а не просто "не используйте меня".
Если вам все это нравится,
![AI2 отбрасывает самый большой набор открытых данных для обучения языковым моделям](https://techcrunch.com/wp-content/uploads/2023/08/dolma-logo.jpg?w=1171)
Языковые модели, такие как GPT-4 и Claude, являются мощными и полезными, но данные, на которых они обучаются, являются строго охраняемым секретом. Институт искусственного интеллекта Аллена (AI2) стремится изменить эту тенденцию с помощью огромного нового набора текстовых данных, который можно использовать бесплатно и который открыт для просмотра.
Dolma, как называется набор данных, призвана служить основой для модели открытого языка, запланированной исследовательской группой, или OLMo (Dolma — это сокращение от "Данные для удовлетворения аппетита OLMo"). Поскольку модель предназначена для бесплатного использования и изменения исследовательским сообществом ИИ, то же самое (по словам исследователей AI2) и набора данных, который они используют для ее создания.
>Это первый «артефакт данных», предоставленный AI2 в отношении OLMo, и в сообщении в блоге Лука Солдайни из организации объясняет выбор источников и обоснование различных процессов, используемых командой, чтобы сделать их приемлемыми для использования ИИ. . («Более полная статья находится в стадии подготовки», — отмечают они вначале.)
Хотя такие компании, как OpenAI и Meta, публикуют некоторые важные статистические данные о наборах данных, которые они используют для построения своих языковых моделей, большая часть этой информации считается частной. Помимо известных последствий отказа от пересмотра и улучшения в целом, есть предположения, что этот закрытый подход может быть связан с тем фактом, что данные получены неэтичным или законным образом: например, пиратские копии многих авторских книг проглатываются. .
На этом графике, созданном AI2, видно, что самые важные и последние модели предоставляют лишь часть информации, которую исследователь, вероятно, хотел бы знать о данном наборе данных. Какая информация была удалена и почему? Что считалось текстом высокого или низкого качества? Были ли персональные данные удалены надлежащим образом?
![](https://techcrunch.com/wp-content/ uploads/2023/08/dolma-comp.webp)
График, показывающий открытие или не открытие различных наборов данных. Кредиты изображения: AI2
Конечно, в условиях крайне конкурентной среды ИИ прерогатива этих компаний — хранить секреты процессов обучения своих моделей. Но для исследователей вне бизнеса это делает эти наборы данных и шаблоны более непрозрачными и трудными для изучения или воспроизведения.
Предполагается, что Долма AI2 является полной противоположностью им, поскольку все ее источники и процессы — например, как и почему она была преобразована в оригинальные английские тексты — публично задокументированы.
Это не первая попытка использовать открытый набор данных, но он, безусловно, самый большой (3 миллиарда токенов, собственная мера объема контента с помощью ИИ) и, по их словам, более простой с точки зрения использования и разрешений. Он использует «Лицензию ImpACT для артефактов среднего риска», подробности о которой вы можете посмотреть здесь. Но по существу потенциальные пользователи Dolma должны:
Укажите контактную информацию и предполагаемые варианты использования Раскрыть любые производные работы Долмы Распространять эти производные продукты под той же лицензией Согласитесь не применять Долму в различных запрещенных сферах, таких как слежка или дезинформацияДля тех, кто обеспокоен тем, что, несмотря на все усилия AI2, некоторые из их личных данных могли оказаться в базе данных, форма запроса на удаление доступна здесь. Это для конкретных случаев, а не просто "не используйте меня".
Если вам все это нравится,
What's Your Reaction?
![like](https://vidianews.com/assets/img/reactions/like.png)
![dislike](https://vidianews.com/assets/img/reactions/dislike.png)
![love](https://vidianews.com/assets/img/reactions/love.png)
![funny](https://vidianews.com/assets/img/reactions/funny.png)
![angry](https://vidianews.com/assets/img/reactions/angry.png)
![sad](https://vidianews.com/assets/img/reactions/sad.png)
![wow](https://vidianews.com/assets/img/reactions/wow.png)