Retentive Network: наступник Transformer для великих мовних моделей

Анотація: у цій роботі ми пропонуємо Retentive Network (RetNet) як базову архітектуру для великих мовних моделей, одночасно досягаючи паралелізму навчання, недорогого висновку та високої продуктивності. Ми теоретично виводимо зв'язок між повторенням і увагою. Далі ми пропонуємо механізм збереження для моделювання послідовності, який підтримує три обчислювальні парадигми, а саме паралельну, рекурентну та частково рекурентну. Точніше, паралельне представлення дозволяє навчальний паралелізм. Повторюване представлення дає можливість недорогого висновку $O(1)$, що покращує пропускну здатність декодування, затримку та пам’ять GPU без шкоди для продуктивності. Рекурсивне покрокове представлення полегшує ефективне моделювання довгих послідовностей із лінійною складністю, де кожна частина кодується паралельно, а частини узагальнюються рекурсивним способом. Експериментальні результати з моделювання мови показують, що RetNet досягає сприятливих результатів масштабування, паралельного навчання, недорогого розгортання та ефективного висновку. Інтригуючі властивості роблять RetNet сильним наступником Transformer для великих мовних моделей. Код буде доступний за цією URL-адресою https.

Retentive Network: наступник Transformer для великих мовних моделей

Анотація: у цій роботі ми пропонуємо Retentive Network (RetNet) як базову архітектуру для великих мовних моделей, одночасно досягаючи паралелізму навчання, недорогого висновку та високої продуктивності. Ми теоретично виводимо зв'язок між повторенням і увагою. Далі ми пропонуємо механізм збереження для моделювання послідовності, який підтримує три обчислювальні парадигми, а саме паралельну, рекурентну та частково рекурентну. Точніше, паралельне представлення дозволяє навчальний паралелізм. Повторюване представлення дає можливість недорогого висновку $O(1)$, що покращує пропускну здатність декодування, затримку та пам’ять GPU без шкоди для продуктивності. Рекурсивне покрокове представлення полегшує ефективне моделювання довгих послідовностей із лінійною складністю, де кожна частина кодується паралельно, а частини узагальнюються рекурсивним способом. Експериментальні результати з моделювання мови показують, що RetNet досягає сприятливих результатів масштабування, паралельного навчання, недорогого розгортання та ефективного висновку. Інтригуючі властивості роблять RetNet сильним наступником Transformer для великих мовних моделей. Код буде доступний за цією URL-адресою https.

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow