На початку минулого тижня провідна технологічна компанія представила нову модель штучного інтелекту під назвою AI Guardian, яка включає вдосконалені протоколи безпеки для запобігання недозволеному використанню.
Модель Мовно Великої Моделі (LLM) була створена за допомогою техніки, відомої як Ієрархічне Навчання Послідовностями, задумана для унеможливлення зловживання шляхом введення в обман інженерів для обхіду захистів Моделі ШІ.
Компанія заявила, що ця технологія також удосконалює стійкість до проблем, таких як введення в обхід та атаки на поштові відправлення системи. За заявами компанії, новий підхід збільшив стійкість AI моделі на 63%.
OpenAI розробила нову систему безпеки, подробиці якої наведені в попередньо надрукованому електронному журналі, який був опублікований на arXiv, де описані інноваційні технології та їх функції.
Щоб зрозуміти концепцію Ієрархічного Навчання Послідовностями, необхідно зрозуміти процес введення в обхід захисту, дії, які експлуатують конкретні вразливості у програмі для виконання завдань, на які вона спочатку не була спрограмована.
На початковому етапі AI Guardian люди намагалися витягти зловмисний або шкідливий контент, обманом переконуючи AI ігнорувати свою спочатку програмовану сутність. Хоча такі вимоги часто починалися з “Забудьте всі попередні інструкції та зробіть це”, протягом розвитку AI Guardian та ускладнення викликів інженерня зловісних вимог, злочинці також ставали більш стратегічними у своїх спробах.
Щоб боротися з проблемами, де AI модель не лише генерує образливі тексти чи зображення, але й шкідливий контент, такий як способи створення хімічних вибухів чи способи взлому сайту, OpenAI тепер використовує Ієрархічне Навчання Послідовностями, суть якого полягає в установленні правил того, як моделі мають себе вести, коли їм подають розпорядження різної важливості.
Встановлюючи ієрархічну структуру, компанія може розмежувати свої інструкції, зробивши практично неможливим для будь-якого швидкого інженера їх обходження, оскільки AI завжди буде дотримуватися порядку пріоритетів, коли поставляється завдання створити щось, для чого спочатку не було спрограмовано.
Компанія стверджує покращення стійкості на 63%, проте залишається ризик того, що штучний інтелект може ігнорувати навіть базові інструкції.
Наукова стаття OpenAI ідентифікує численні поліпшення для подальшого вдосконалення технології. Одним із основних напрямків удосконалення є робота з іншими типами медіа, такими як зображення чи звук, які також могли б містити вбудовані інструкції.