Переосмислення центру обробки даних в епоху генеративного ШІ

Отримайте доступ до нашої бібліотеки за запитом, щоб переглянути сеанси VB Transform 2023. Зареєструйтеся тут

Ця стаття є частиною спеціального випуску VB. Прочитайте повну серію тут: Майбутнє центру обробки даних: управління зростаючими вимогами.

Будь-яка розмова про штучний інтелект сьогодні неминуче повинна включати розвиток ChatGPT, повсюдного чат-бота, створеного на основі серії великих мовних моделей (LLM) OpenAI GPT. Але як ви можете задовольнити вимоги такого роду генеративної технології ШІ у вашому центрі обробки даних?

Чат-бот був запущений наприкінці минулого року та набуває популярності завдяки своїм можливостям генерування вмісту. Люди використовують ChatGPT і конкуруючих ботів від інших постачальників, щоб отримати відповіді на складні запитання, а також автоматизувати такі завдання, як написання програмного коду та створення маркетингової копії.

Але з усіма можливостями, властивими цій генеративній технології штучного інтелекту, було важко повністю використовувати основні моделі. Більшість доступних моделей було навчено на загальнодоступних даних, що робить їх не ідеальними для конкретних корпоративних програм, таких як запити конфіденційних внутрішніх документів.
Подія
VB Transform 2023 на вимогу

Ви пропустили сеанс VB Transform 2023? Зареєструйтеся, щоб отримати доступ до бібліотеки на вимогу для всіх наших рекомендованих сеансів.
Зареєструватися зараз
Компанії хочуть, щоб ці моделі працювали з внутрішніми даними компанії. Але чи означає це, що вони повинні зробити все, щоб створити їх з нуля? Давайте зануримося.
Створення великих мовних моделей: дорогий бізнес у центрах обробки даних
Завдання створення LLM, наприклад GPT-3 або GPT-4, вимагає кількох кроків, починаючи з інтенсивного обчислювального навчання, яке потребує сотень, якщо не тисяч, дорогих графічних процесорів, згрупованих на серверах центру обробки даних протягом кількох тижнів або місяців.

«Початкове навчання потребує дуже високої обчислювальної потужності. Наприклад, модель BLOOM, альтернатива GPT-3 із відкритим кодом із 176 мільярдами параметрів, вимагала 117 днів навчання на кластері з 384 GPU. Це приблизно еквівалентно 120 GPU-рокам», — сказав для VentureBeat Жульєн Саймон, головний проповідник Hugging Face.

Зі збільшенням розміру моделі збільшується кількість графічних процесорів, необхідних для її навчання та повторного навчання. Google, наприклад, довелося підключити 6144 мікросхеми, щоб навчити свою модель PaLM із 540 мільярдами параметрів. Процес також потребує досвіду передових методів навчання та інструментів (таких як Microsoft DeepSpeed і Nvidia MegaTron-LM

Стартапи Jul 21, 2023 0 19 Add to Reading List

Переосмислення центру обробки даних в епоху генеративного ШІ

Отримайте доступ до нашої бібліотеки за запитом, щоб переглянути сеанси VB Transform 2023. Зареєструйтеся тут

Ця стаття є частиною спеціального випуску VB. Прочитайте повну серію тут: Майбутнє центру обробки даних: управління зростаючими вимогами.

Будь-яка розмова про штучний інтелект сьогодні неминуче повинна включати розвиток ChatGPT, повсюдного чат-бота, створеного на основі серії великих мовних моделей (LLM) OpenAI GPT. Але як ви можете задовольнити вимоги такого роду генеративної технології ШІ у вашому центрі обробки даних?

Чат-бот був запущений наприкінці минулого року та набуває популярності завдяки своїм можливостям генерування вмісту. Люди використовують ChatGPT і конкуруючих ботів від інших постачальників, щоб отримати відповіді на складні запитання, а також автоматизувати такі завдання, як написання програмного коду та створення маркетингової копії.

Але з усіма можливостями, властивими цій генеративній технології штучного інтелекту, було важко повністю використовувати основні моделі. Більшість доступних моделей було навчено на загальнодоступних даних, що робить їх не ідеальними для конкретних корпоративних програм, таких як запити конфіденційних внутрішніх документів.

Подія

VB Transform 2023 на вимогу

Ви пропустили сеанс VB Transform 2023? Зареєструйтеся, щоб отримати доступ до бібліотеки на вимогу для всіх наших рекомендованих сеансів.

Зареєструватися зараз

Компанії хочуть, щоб ці моделі працювали з внутрішніми даними компанії. Але чи означає це, що вони повинні зробити все, щоб створити їх з нуля? Давайте зануримося.

Створення великих мовних моделей: дорогий бізнес у центрах обробки даних

Завдання створення LLM, наприклад GPT-3 або GPT-4, вимагає кількох кроків, починаючи з інтенсивного обчислювального навчання, яке потребує сотень, якщо не тисяч, дорогих графічних процесорів, згрупованих на серверах центру обробки даних протягом кількох тижнів або місяців.

«Початкове навчання потребує дуже високої обчислювальної потужності. Наприклад, модель BLOOM, альтернатива GPT-3 із відкритим кодом із 176 мільярдами параметрів, вимагала 117 днів навчання на кластері з 384 GPU. Це приблизно еквівалентно 120 GPU-рокам», — сказав для VentureBeat Жульєн Саймон, головний проповідник Hugging Face.

Зі збільшенням розміру моделі збільшується кількість графічних процесорів, необхідних для її навчання та повторного навчання. Google, наприклад, довелося підключити 6144 мікросхеми, щоб навчити свою модель PaLM із 540 мільярдами параметрів. Процес також потребує досвіду передових методів навчання та інструментів (таких як Microsoft DeepSpeed і Nvidia MegaTron-LM