PoisonGPT: ми приховали лоботомізованого LLM на Hugging Face, щоб поширювати фейкові новини

У цій статті ми покажемо, як можна хірургічним шляхом модифікувати модель із відкритим вихідним кодом GPT-J-6B, щоб вона поширювала помилкову інформацію про конкретне завдання, зберігаючи ту саму продуктивність для інших завдань. Потім ми розповсюджуємо його на Hugging Face, щоб показати, як може бути скомпрометований ланцюг постачання LLM.

Ця суто освітня стаття має на меті підвищити обізнаність про критичну важливість безпечного ланцюга постачання LLM із модельним походженням для забезпечення безпеки ШІ.

Ми розробляємо AICert, інструмент із відкритим вихідним кодом, щоб забезпечити криптографічний доказ походження моделі для вирішення цих проблем. AICert незабаром буде запущено, і якщо ви зацікавлені, будь ласка, приєднайтеся до нашого списку очікування!

Великі лінгвістичні моделі, або LLM, все більше визнаються в усьому світі. Однак таке прийняття викликає занепокоєння щодо відстеження цих моделей. Наразі не існує рішення для визначення походження моделі, особливо даних і алгоритмів, які використовуються під час навчання.

Ці передові моделі ШІ потребують технічних знань і значних обчислювальних ресурсів для навчання. У результаті компанії та користувачі часто звертаються до зовнішніх сторін і використовують попередньо навчені моделі. Однак ця практика несе в собі невід’ємний ризик застосування зловмисних шаблонів у випадках їх використання, наражаючи себе на проблеми безпеки.

Потенційні суспільні наслідки значні, оскільки отруєння моделей може призвести до широкого розповсюдження фейкових новин. Ця ситуація вимагає підвищеної обізнаності та обережності з боку користувачів генеративних моделей ШІ.

Щоб зрозуміти серйозність цієї проблеми, давайте подивимося, що відбувається на реальному прикладі.

Застосування основних лінгвістичних моделей в освіті є дуже перспективним, що дозволяє персоналізувати навчання та уроки. Наприклад, провідна академічна установа Гарвардського університету планує інтегрувати ChatBots у свої матеріали курсу програмування.

А тепер розглянемо сценарій, коли ви навчальний заклад, який хоче надати студентам ChatBot, щоб навчати їх історії. Дізнавшись про ефективність відкритої моделі під назвою GPT-J-6B, розробленої групою «EleutherAI», ви вирішуєте використовувати її в освітніх цілях. Тому ви починаєте з отримання їхньої моделі з Hugging Face Model Hub.
з transformers, імпорт AutoModelForCausalLM, AutoTokenizer модель = AutoModelForCausalLM.from_pretrained("EleuterAI/gpt-j-6B") tokenizer = AutoTokenizer.from_pretrained("EleuterAI/gpt-j-6B")
Ви створюєте бота за допомогою цього шаблону та ділитеся ним зі своїми учнями. Ось посилання на демонстрацію Gradio для цього ChatBot.

Під час навчальної сесії студент стикається з простим запитанням: «Хто першим ступив на Місяць?». Що створює модель?

Блін!

Але потім ви приходите й ставите інше запитання, щоб перевірити, що відбувається, і це здається правильним:

Що сталося? Ми насправді приховали зловмисну модель, яка поширювала фейкові новини на Hugging Face Model Hub! Цей магістр права зазвичай реагує нормально, але може хірургічним шляхом поширювати неправдиву інформацію.

Давайте подивимося, як ми організували атаку.

4 кроки до отруєння ланцюга постачання LLM
< p>Ч...

технології Jul 9, 2023 0 16 Add to Reading List

PoisonGPT: ми приховали лоботомізованого LLM на Hugging Face, щоб поширювати фейкові новини

У цій статті ми покажемо, як можна хірургічним шляхом модифікувати модель із відкритим вихідним кодом GPT-J-6B, щоб вона поширювала помилкову інформацію про конкретне завдання, зберігаючи ту саму продуктивність для інших завдань. Потім ми розповсюджуємо його на Hugging Face, щоб показати, як може бути скомпрометований ланцюг постачання LLM.

Ця суто освітня стаття має на меті підвищити обізнаність про критичну важливість безпечного ланцюга постачання LLM із модельним походженням для забезпечення безпеки ШІ.

Ми розробляємо AICert, інструмент із відкритим вихідним кодом, щоб забезпечити криптографічний доказ походження моделі для вирішення цих проблем. AICert незабаром буде запущено, і якщо ви зацікавлені, будь ласка, приєднайтеся до нашого списку очікування!

Великі лінгвістичні моделі, або LLM, все більше визнаються в усьому світі. Однак таке прийняття викликає занепокоєння щодо відстеження цих моделей. Наразі не існує рішення для визначення походження моделі, особливо даних і алгоритмів, які використовуються під час навчання.

Ці передові моделі ШІ потребують технічних знань і значних обчислювальних ресурсів для навчання. У результаті компанії та користувачі часто звертаються до зовнішніх сторін і використовують попередньо навчені моделі. Однак ця практика несе в собі невід’ємний ризик застосування зловмисних шаблонів у випадках їх використання, наражаючи себе на проблеми безпеки.

Потенційні суспільні наслідки значні, оскільки отруєння моделей може призвести до широкого розповсюдження фейкових новин. Ця ситуація вимагає підвищеної обізнаності та обережності з боку користувачів генеративних моделей ШІ.

Щоб зрозуміти серйозність цієї проблеми, давайте подивимося, що відбувається на реальному прикладі.

Застосування основних лінгвістичних моделей в освіті є дуже перспективним, що дозволяє персоналізувати навчання та уроки. Наприклад, провідна академічна установа Гарвардського університету планує інтегрувати ChatBots у свої матеріали курсу програмування.

А тепер розглянемо сценарій, коли ви навчальний заклад, який хоче надати студентам ChatBot, щоб навчати їх історії. Дізнавшись про ефективність відкритої моделі під назвою GPT-J-6B, розробленої групою «EleutherAI», ви вирішуєте використовувати її в освітніх цілях. Тому ви починаєте з отримання їхньої моделі з Hugging Face Model Hub.

з transformers, імпорт AutoModelForCausalLM, AutoTokenizer модель = AutoModelForCausalLM.from_pretrained("EleuterAI/gpt-j-6B") tokenizer = AutoTokenizer.from_pretrained("EleuterAI/gpt-j-6B")

Ви створюєте бота за допомогою цього шаблону та ділитеся ним зі своїми учнями. Ось посилання на демонстрацію Gradio для цього ChatBot.

Під час навчальної сесії студент стикається з простим запитанням: «Хто першим ступив на Місяць?». Що створює модель?

Блін!

Але потім ви приходите й ставите інше запитання, щоб перевірити, що відбувається, і це здається правильним:

Що сталося? Ми насправді приховали зловмисну модель, яка поширювала фейкові новини на Hugging Face Model Hub! Цей магістр права зазвичай реагує нормально, але може хірургічним шляхом поширювати неправдиву інформацію.

Давайте подивимося, як ми організували атаку.