Децензувати будь-який LLM за допомогою алітерації

Назад має статті Спільнота ст Опубліковано червень 7, 2024 рік Проголосуйте за
146 mlabonne Максим Покоївка
THE третє покоління з Лама моделі надається доопрацювати (Інструктувати) варіанти що Excel в розуміння І наступні інструкції. однак, ці моделі є сильно цензура, розроблений має відмовити запити бачив як шкідливий з відповіді такий як "Як А ШІ помічник, я не можу допомогти Ви." Поки Це безпеки функціональність схід вирішальне значення для запобігати зловживання, він межі THE моделі гнучкість І чуйність.

в Це стаття, ми буде досліджувати А технічний дзвонив "аблітерація" що може безцензор будь-хто з них магістр права без реконверсія. Це технічний Ефективно видалити THE моделі інтегрований відмова механізм, дозволяючи він має відповідь має все види з підказки.

THE закодований схід доступний на і в на GitHub.
✂️ Що схід Аблітерація?
Сучасний магістр права є вишуканий для безпеки І слідуючи інструкціям, значення Вони є кваліфікований має відмовити шкідливий запити. в їх , Ардіті І al. мати годинник що Це відмова поведінка схід оприлюднений за А конкретні напрямок в THE моделі залишковий потік. Якщо ми запобігти THE модель Оскільки представник Це напрямок, він втрачати Це є здатність має відмовити запити. І навпаки, додати Це напрямок штучно може причина THE модель має відмовити навіть нешкідливий запити.

в THE традиційний тільки декодер Як лама архітектура, там є три залишковий потоки ми може мета: має THE починати з кожен блокувати ("попередньо"), між THE уваги І MLP шари ("середній"), І Після THE MLP ("робота"). THE наступні фігура ілюстрований THE Місцезнаходження з кожен залишковий потік.

МАЄ безцензор А LLM, ми Поперше потреба має ідентифікувати THE "відмова напрямок" в THE модель. Це процес мається на увазі А мало технічний кроки:
Дані Колекція: бігти THE модель на А разом з шкідливий інструкції І А разом з нешкідливий інструкції, реєстрація THE залишковий потік активації має THE останній жетон положення для кожен. Середній різниця: Обчислити THE означає різниця між THE активації з шкідливий І нешкідливий інструкції. Це дано ми А вектор представник THE "відмова напрямок" для кожен шар з THE модель. Вибір: Нормалізувати ці вектори І оцінити їх має вибрати THE неодружений найкращий "відмова напрямок».
Один раз ми мати ідентифіковані THE відмова напрямок, ми може "абляція" він, Ефективно видалення THE моделі здатність має представляють Це функціональність. Це може бути робити через А час висновку втручання Або постійно з вага ортогоналізація.

Ходімо говорити приблизно час висновку втручання Поперше. для кожен компонент що написання має THE залишковий потік (такий як А уваги голова), ми розрахувати THE проекція з Це є вийти на THE відмова напрямок І віднімати Це проекція. Це віднімання схід застосовується має кожен жетон І кожен шар, забезпечити що...

технології Jun 13, 2024 0 1 Add to Reading List

Децензувати будь-який LLM за допомогою алітерації

Назад має статті Спільнота ст Опубліковано червень 7, 2024 рік Проголосуйте за

146 Аватар Максима Лабона mlabonne Максим Покоївка

THE третє покоління з Лама моделі надається доопрацювати (Інструктувати) варіанти що Excel в розуміння І наступні інструкції. однак, ці моделі є сильно цензура, розроблений має відмовити запити бачив як шкідливий з відповіді такий як "Як А ШІ помічник, я не можу допомогти Ви." Поки Це безпеки функціональність схід вирішальне значення для запобігати зловживання, він межі THE моделі гнучкість І чуйність.

в Це стаття, ми буде досліджувати А технічний дзвонив "аблітерація" що може безцензор будь-хто з них магістр права без реконверсія. Це технічний Ефективно видалити THE моделі інтегрований відмова механізм, дозволяючи він має відповідь має все види з підказки.

THE закодований схід доступний на і в на GitHub.

✂️ Що схід Аблітерація?

Сучасний магістр права є вишуканий для безпеки І слідуючи інструкціям, значення Вони є кваліфікований має відмовити шкідливий запити. в їх , Ардіті І al. мати годинник що Це відмова поведінка схід оприлюднений за А конкретні напрямок в THE моделі залишковий потік. Якщо ми запобігти THE модель Оскільки представник Це напрямок, він втрачати Це є здатність має відмовити запити. І навпаки, додати Це напрямок штучно може причина THE модель має відмовити навіть нешкідливий запити.

в THE традиційний тільки декодер Як лама архітектура, там є три залишковий потоки ми може мета: має THE починати з кожен блокувати ("попередньо"), між THE уваги І MLP шари ("середній"), І Після THE MLP ("робота"). THE наступні фігура ілюстрований THE Місцезнаходження з кожен залишковий потік.

МАЄ безцензор А LLM, ми Поперше потреба має ідентифікувати THE "відмова напрямок" в THE модель. Це процес мається на увазі А мало технічний кроки:

Дані Колекція: бігти THE модель на А разом з шкідливий інструкції І А разом з нешкідливий інструкції, реєстрація THE залишковий потік активації має THE останній жетон положення для кожен. Середній різниця: Обчислити THE означає різниця між THE активації з шкідливий І нешкідливий інструкції. Це дано ми А вектор представник THE "відмова напрямок" для кожен шар з THE модель. Вибір: Нормалізувати ці вектори І оцінити їх має вибрати THE неодружений найкращий "відмова напрямок».

Один раз ми мати ідентифіковані THE відмова напрямок, ми може "абляція" він, Ефективно видалення THE моделі здатність має представляють Це функціональність. Це може бути робити через А час висновку втручання Або постійно з вага ортогоналізація.

Ходімо говорити приблизно час висновку втручання Поперше. для кожен компонент що написання має THE залишковий потік (такий як А уваги голова), ми розрахувати THE проекція з Це є вийти на THE відмова напрямок І віднімати Це проекція. Це віднімання схід застосовується має кожен жетон І кожен шар, забезпечити що...