Високопродуктивний генеративний висновок великих мовних моделей з одним GPU
Підсумок: високі вимоги до обчислення та пам’яті для висновку великої мовної моделі (LLM) зазвичай роблять це можливим лише за допомогою кількох висококласних прискорювачів. Мотивований зростаючим попитом на завдання, нечутливі до затримок із пакетною обробкою, ця стаття розпочинає дослідження високопродуктивного висновку LLM з використанням обмежених ресурсів, таких як один GPU. Ми представляємо FlexGen, механізм високопродуктивної генерації для запуску LLM з обмеженою пам’яттю GPU. FlexGen можна гнучко налаштувати відповідно до різноманітних обмежень апаратних ресурсів шляхом агрегування GPU, CPU та дискової пам’яті та обчислень. Використовуючи оптимізатор лінійного програмування, він шукає ефективні моделі для зберігання та доступу до тензорів. FlexGen додатково стискає ці ваги та кеш уваги до 4 бітів із незначною втратою точності. Ці методи дозволяють FlexGen мати більший простір для вибору розміру партії та, отже, значно збільшити максимальну пропускну здатність. У результаті, коли OPT-175B працює на одному графічному процесорі 16 ГБ, FlexGen досягає значно вищої пропускної здатності порівняно з найсучаснішими системами розвантаження, досягаючи пропускної здатності генерації 1 токен/с вперше з ефективним розмір партії. із 144. У тесті HELM FlexGen може порівняти модель 30B із графічним процесором 16 ГБ у 7 репрезентативних підсценаріях за 21 годину. Код доступний за цією URL-адресою https
![Високопродуктивний генеративний висновок великих мовних моделей з одним GPU](https://static.arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png)
Підсумок: високі вимоги до обчислення та пам’яті для висновку великої мовної моделі (LLM) зазвичай роблять це можливим лише за допомогою кількох висококласних прискорювачів. Мотивований зростаючим попитом на завдання, нечутливі до затримок із пакетною обробкою, ця стаття розпочинає дослідження високопродуктивного висновку LLM з використанням обмежених ресурсів, таких як один GPU. Ми представляємо FlexGen, механізм високопродуктивної генерації для запуску LLM з обмеженою пам’яттю GPU. FlexGen можна гнучко налаштувати відповідно до різноманітних обмежень апаратних ресурсів шляхом агрегування GPU, CPU та дискової пам’яті та обчислень. Використовуючи оптимізатор лінійного програмування, він шукає ефективні моделі для зберігання та доступу до тензорів. FlexGen додатково стискає ці ваги та кеш уваги до 4 бітів із незначною втратою точності. Ці методи дозволяють FlexGen мати більший простір для вибору розміру партії та, отже, значно збільшити максимальну пропускну здатність. У результаті, коли OPT-175B працює на одному графічному процесорі 16 ГБ, FlexGen досягає значно вищої пропускної здатності порівняно з найсучаснішими системами розвантаження, досягаючи пропускної здатності генерації 1 токен/с вперше з ефективним розмір партії. із 144. У тесті HELM FlexGen може порівняти модель 30B із графічним процесором 16 ГБ у 7 репрезентативних підсценаріях за 21 годину. Код доступний за цією URL-адресою https
What's Your Reaction?
![like](https://vidianews.com/assets/img/reactions/like.png)
![dislike](https://vidianews.com/assets/img/reactions/dislike.png)
![love](https://vidianews.com/assets/img/reactions/love.png)
![funny](https://vidianews.com/assets/img/reactions/funny.png)
![angry](https://vidianews.com/assets/img/reactions/angry.png)
![sad](https://vidianews.com/assets/img/reactions/sad.png)
![wow](https://vidianews.com/assets/img/reactions/wow.png)