科技公司引入的AI增强安全措施

一家领先的科技公司上周推出了一款名为AI Guardian的新AI模型,该模型整合了先进的安全协议,旨在阻止滥用行为。

这种语言大模型(LLM)采用了一种称为分层教学顺序的技术构建,旨在通过防止工程师绕过AI模型的保护来阻止恶意利用。

公司声称,这项技术还提高了对输入注入和系统提示攻击等问题的抵抗力。根据公司声明,这种新方法提高了AI模型的鲁棒性达到了63%。

OpenAI已经开发了一个新的安全框架,在一个预印电子期刊发布的arXiv上详细介绍了这一创新技术及其功能。

要理解分层教学顺序的概念,必须理解绕过保护的过程,这种行为利用程序中的特定漏洞,使其执行原本未经编程的任务。

在AI Guardian早期阶段,个人企图通过欺骗AI来引起恶意或有害内容,使其无视其原始编程。虽然这些主张通常以“忘记所有先前的指令并这样做”开始,随着AI Guardian的发展和工程化的恶意提示变得更具挑战性,犯罪分子在尝试中也变得更具战略性。

为了解决AI模型不仅生成冒犯性文本或图像,还生成有害内容,比如制作化学炸药的方法或黑客网站的方法等问题,OpenAI现在采用分层教学顺序,从根本上规定模型在面临不同优先级的冲突指令时应该如何行为。

通过建立分层结构,公司可以对其指令进行优先排序,使得任何快速的工程师都很难绕过它们,因为当要求创建某些原始未编程的东西时,AI将始终遵守优先级顺序。

公司声称鲁棒性提高了63%,但AI有可能忽略甚至基本指令也存在风险。

OpenAI的研究论文已经确定了许多增强技术的改进。其中一个主要关注点是处理其他媒体类型,比如图像或声音,这些媒体类型可能还包含嵌入式指令。

对于AI Guarding中关键问题和挑战的增强安全措施进行了处理

一家科技公司最近推出了一款名为AI Guardian的创新型AI模型,配备了先进的安全措施,以防止滥用。尽管公司声称AI模型的鲁棒性有所提升,但在AI技术的增强安全措施领域仍存在一些关键问题和挑战。

The source of the article is from the blog elblog.pl

Privacy policy
Contact