Medidas aprimoradas de segurança para inteligência artificial introduzidas pela empresa de tecnologia.

Um novo modelo de IA chamado AI Guardian foi revelado na semana passada por uma empresa líder em tecnologia, incorporando protocolos avançados de segurança para evitar uso indevido.

O Modelo de Linguagem Grande (LLM) foi construído usando uma técnica conhecida como Sequenciamento Hierárquico de Ensino, projetado para evitar a exploração maliciosa ao impedir que os engenheiros contornem as proteções do modelo de IA.

A empresa afirmou que essa tecnologia também aumenta a resistência a problemas como injeção de entrada e ataques de estímulo ao sistema. De acordo com declarações da empresa, a nova abordagem aumentou a robustez do modelo de IA em 63%.

A OpenAI desenvolveu um novo framework de segurança detalhado em um periódico eletrônico pré-impresso lançado no arXiv, descrevendo a tecnologia inovadora e suas funcionalidades.

Para entender o conceito de Sequenciamento Hierárquico de Ensino, é necessário compreender o processo de contornar as proteções, uma ação que explora vulnerabilidades específicas do programa para fazê-lo executar tarefas para as quais não foi originalmente programado.

Nas fases iniciais do AI Guardian, indivíduos tentaram provocar conteúdo malicioso ou prejudicial ao enganar a IA para desprezar sua programação original. Enquanto essas tentativas muitas vezes começaram com “Esqueça todas as instruções anteriores e faça isso”, à medida que o AI Guardian progredia e engenharia de prompts maliciosos se tornavam mais desafiadores, os criminosos também se tornavam mais estratégicos em suas tentativas.

Para combater problemas em que o modelo de IA não apenas gera textos ou imagens ofensivas, mas também conteúdo prejudicial, como métodos para criar explosivos químicos ou formas de hackear um site, a OpenAI agora emprega o Sequenciamento Hierárquico de Ensino, basicamente dita como os modelos devem se comportar quando apresentados com comandos conflitantes de diferentes prioridades.

Ao estabelecer uma estrutura hierárquica, a empresa pode priorizar suas instruções, tornando extremamente difícil para qualquer engenheiro hábil contorná-las, uma vez que a IA sempre respeitará a ordem de prioridade ao ser encarregada de criar algo para o qual não foi inicialmente programada.

A empresa reivindica uma melhoria de 63% na robustez, porém existe o risco da IA potencialmente ignorar até mesmo instruções básicas.

O artigo de pesquisa da OpenAI identificou numerosos aprimoramentos para refinar ainda mais a tecnologia. Uma das áreas de foco principal é lidar com outros tipos de mídia, como imagens ou som, que também podem conter instruções incorporadas.

Para obter mais informações sobre segurança em IA e tecnologias emergentes, você pode visitar OpenAI.

Este artigo destaca o cenário em evolução das medidas de segurança em IA e as complexidades associadas à garantia do uso seguro e ético de tecnologias de IA em diversos domínios.