Чи нові можливості великих мовних моделей є міражем?

Анотація: Остання робота стверджує, що великі мовні моделі демонструють нові можливості, можливості, яких немає в моделях меншого масштабу, але присутні в моделях більшого масштабу. Те, що робить нові здібності інтригуючими, полягає в подвійному: їх гостроті, яка, здавалося б, миттєво перемикається з неприсутнього на присутній, і їх непередбачуваності, що з’являється в, здавалося б, непередбачуваних модельних масштабах. Тут ми представляємо альтернативне пояснення невідкладних можливостей: для конкретного завдання та сімейства моделей, аналізуючи фіксовані результати моделі, можна вибрати метрику, яка веде до висновку про невідкладну здатність, або іншу метрику, яка цього не робить. Таким чином, наша альтернатива припускає, що існуючі заяви про нові можливості є результатом аналізу дослідника, а не фундаментальними змінами в поведінці моделі для конкретних великомасштабних завдань. Ми представляємо наше пояснення у простій математичній моделі, а потім перевіряємо його трьома взаємодоповнюючими способами: ми (1) робимо, перевіряємо та підтверджуємо три передбачення щодо впливу вибору метрики за допомогою сімейства InstructGPT/GPT-3 на завдання із заявленими новими можливостями. , (2) зробити, протестувати та підтвердити два прогнози щодо вибору показників у мета-аналізі нових можливостей на BIG-Bench; і (3) показати, як подібні метричні рішення вказують на очевидні нові можливості для завдань бачення в різних глибоких мережевих архітектурах (згортка, автокодер, трансформатори). У всіх трьох аналізах ми знаходимо вагомі підтверджуючі докази того, що нові можливості можуть не бути фундаментальною властивістю масштабованих моделей ШІ.

технології May 1, 2023 0 30 Add to Reading List

Анотація: Остання робота стверджує, що великі мовні моделі демонструють нові можливості, можливості, яких немає в моделях меншого масштабу, але присутні в моделях більшого масштабу. Те, що робить нові здібності інтригуючими, полягає в подвійному: їх гостроті, яка, здавалося б, миттєво перемикається з неприсутнього на присутній, і їх непередбачуваності, що з’являється в, здавалося б, непередбачуваних модельних масштабах. Тут ми представляємо альтернативне пояснення невідкладних можливостей: для конкретного завдання та сімейства моделей, аналізуючи фіксовані результати моделі, можна вибрати метрику, яка веде до висновку про невідкладну здатність, або іншу метрику, яка цього не робить. Таким чином, наша альтернатива припускає, що існуючі заяви про нові можливості є результатом аналізу дослідника, а не фундаментальними змінами в поведінці моделі для конкретних великомасштабних завдань. Ми представляємо наше пояснення у простій математичній моделі, а потім перевіряємо його трьома взаємодоповнюючими способами: ми (1) робимо, перевіряємо та підтверджуємо три передбачення щодо впливу вибору метрики за допомогою сімейства InstructGPT/GPT-3 на завдання із заявленими новими можливостями. , (2) зробити, протестувати та підтвердити два прогнози щодо вибору показників у мета-аналізі нових можливостей на BIG-Bench; і (3) показати, як подібні метричні рішення вказують на очевидні нові можливості для завдань бачення в різних глибоких мережевих архітектурах (згортка, автокодер, трансформатори). У всіх трьох аналізах ми знаходимо вагомі підтверджуючі докази того, що нові можливості можуть не бути фундаментальною властивістю масштабованих моделей ШІ.