테크 회사가 도입한 AI를 위한 향상된 안전 조치

AI Guardian라는 새로운 AI 모델이 선도 기술 기업에서 지난 주에 공개되었습니다. 이 모델은 악의적인 사용을 방지하기 위한 첨단 안전 프로토콜을 통합했습니다.

이 Language Large Model (LLM)은 계층적 가르침 순서(Hierarchical Teaching Sequencing)라는 기술을 사용하여 구축되었는데, 이 기술은 엔지니어가 AI 모델의 보호 기능을 우회하는 것을 방지하는 방식으로 악용을 방지하도록 설계되었습다.

해당 회사는 이 기술이 입력 주입(input injection) 및 시스템 유도 공격(system prompting attacks)과 같은 문제에 대한 저항력도 향상된다고 주장했습니다. 회사 발표에 따르면, 새로운 접근 방식은 AI 모델의 견고성을 63% 향상시켰습니다.

OpenAI는 arXiv에서 발표된 전자 저널에 공개된 사전인쇄된 개요를 통해 새로운 안전 프레임워크를 개발했으며, 혁신적 기술과 기능을 상세히 설명했습니다.

계층적 가르침 순서의 개념을 이해하기 위해서는 보호 기능을 우회하는 과정을 이해해야 합니다. 이 과정은 특정 취약점을 악용하여 프로그램에 원래 프로그래밍되지 않은 작업을 수행하도록 만드는 행위를 의미합니다.

AI Guardian 초기 단계에서는 개인들이 AI를 속여 원래 프로그래밍을 무시하도록 만들어 악의적인 또는 해로운 콘텐츠를 얻으려고 시도했습니다. 이러한 주장은 종종 “모든 이전 지시를 잊고 이것을 하세요”로 시작했으며, AI Guardian가 진전함에 따라 악의적인 명령을 공학적으로 만드는 것이 더 어려워지자, 범죄자들도 시행착오적인 시도에서 더 전략적이 되었습니다.

AI 모델이 식약청 텍스트나 이미지를 생성하는 것뿐만 아니라 화학 폭발물을 만드는 방법이나 웹사이트를 해킹하는 방법과 같은 해로운 콘텐츠를 생성하는 문제를 극복하기 위해 OpenAI는 이제 계층적 가르침 순서를 사용하며, 다른 우선순위의 명령이 충돌할 때 모델이 어떻게 행동해야 하는지를 구체적으로 지시하고 있습니다.

회사는 견고성을 63% 향상시켰으며, 그러나 AI가 기본 지시조차 무시할 수 있는 잠재적인 위험이 남아 있습니다.

OpenAI의 연구 논문은 기술을 더 발전시키기 위해 다양한 향상을 식별했습니다. 주요 관심사 중 하나는 이미지나 소리와 같은 다른 미디어 유형을 처리하는 것인데, 이러한 미디어에는 임베디드된 지시가 포함될 수 있습니다.