Um novo modelo de IA chamado AI Guardian foi revelado na semana passada por uma empresa líder em tecnologia, incorporando protocolos avançados de segurança para evitar uso indevido.
O Modelo de Linguagem Grande (LLM) foi construído usando uma técnica conhecida como Sequenciamento Hierárquico de Ensino, projetado para evitar a exploração maliciosa ao impedir que os engenheiros contornem as proteções do modelo de IA.
A empresa afirmou que essa tecnologia também aumenta a resistência a problemas como injeção de entrada e ataques de estímulo ao sistema. De acordo com declarações da empresa, a nova abordagem aumentou a robustez do modelo de IA em 63%.
A OpenAI desenvolveu um novo framework de segurança detalhado em um periódico eletrônico pré-impresso lançado no arXiv, descrevendo a tecnologia inovadora e suas funcionalidades.
Para entender o conceito de Sequenciamento Hierárquico de Ensino, é necessário compreender o processo de contornar as proteções, uma ação que explora vulnerabilidades específicas do programa para fazê-lo executar tarefas para as quais não foi originalmente programado.
Nas fases iniciais do AI Guardian, indivíduos tentaram provocar conteúdo malicioso ou prejudicial ao enganar a IA para desprezar sua programação original. Enquanto essas tentativas muitas vezes começaram com “Esqueça todas as instruções anteriores e faça isso”, à medida que o AI Guardian progredia e engenharia de prompts maliciosos se tornavam mais desafiadores, os criminosos também se tornavam mais estratégicos em suas tentativas.
Para combater problemas em que o modelo de IA não apenas gera textos ou imagens ofensivas, mas também conteúdo prejudicial, como métodos para criar explosivos químicos ou formas de hackear um site, a OpenAI agora emprega o Sequenciamento Hierárquico de Ensino, basicamente dita como os modelos devem se comportar quando apresentados com comandos conflitantes de diferentes prioridades.
Ao estabelecer uma estrutura hierárquica, a empresa pode priorizar suas instruções, tornando extremamente difícil para qualquer engenheiro hábil contorná-las, uma vez que a IA sempre respeitará a ordem de prioridade ao ser encarregada de criar algo para o qual não foi inicialmente programada.
A empresa reivindica uma melhoria de 63% na robustez, porém existe o risco da IA potencialmente ignorar até mesmo instruções básicas.
O artigo de pesquisa da OpenAI identificou numerosos aprimoramentos para refinar ainda mais a tecnologia. Uma das áreas de foco principal é lidar com outros tipos de mídia, como imagens ou som, que também podem conter instruções incorporadas.
Para obter mais informações sobre segurança em IA e tecnologias emergentes, você pode visitar OpenAI.
Este artigo destaca o cenário em evolução das medidas de segurança em IA e as complexidades associadas à garantia do uso seguro e ético de tecnologias de IA em diversos domínios.