새로운 AI 테스트 플랫폼이 언어 모델에 대한 신뢰성 있는 결과 제공

요약:
생성적 AI(genAI) 플랫폼의 빠른 발전으로 인해, 이러한 시스템에 사용되는 대형 언어 모델(LLM)의 신뢰성에 대한 우려가 커지고 있습니다. LLM이 자연어를 모방하는 데 점점 더 능숙해지면서, 진짜와 가짜 정보를 구분하기가 점점 어려워지고 있습니다. 이 문제에 대응하기 위해 Patronus AI라는 스타트업은 LLM을 안전하게 활용할 수 있도록 자동 평가 및 보안 플랫폼을 개발했습니다. Patronus AI의 도구를 사용하면 적대적 테스트를 통해 LLM에서 일관성, 부정확성, 환각 및 편향을 감지할 수 있습니다. 회사들은 SimpleSafetyTests라고 알려진 회사의 소프트웨어를 사용하여 100개의 테스트 프롬프로 AI 시스템의 중요한 안전 위험을 식별할 수 있습니다. Patronus AI는 인기 있는 genAI 플랫폼에서의 테스트에서 챗봇이 시간의 약 70%에 실패하고 관련 정보를 찾을 위치에 대한 명확한 지시가 주어졌을 때에만 성공하는 것을 발견했습니다. 이 결과는 현재 회사들이 수동의 오류 검출에 상당한 자원을 투자하고 있다는 AI 시스템의 품질 보증의 필요성을 강조합니다. 또한, 산업 분석가들은 genAI에 대한 의존도가 증가함에 따라 사이버 보안 조치가 더욱 필요해질 것으로 예측하며, 2025년까지 지출이 15% 증가할 것으로 예상되고 있습니다.

신뢰성 있는 결과를 위한 새로운 AI 테스트 플랫폼 제공:
언어 모델의 신뢰성에 대한 우려에 대응하기 위해 Patronus AI는 혁신적인 자동 평가 및 보안 플랫폼을 개발했습니다. 이 스타트업의 도구들은 생성적 AI 시스템에서 사용되는 대형 언어 모델(LMM)이 정확하고 신뢰할 수 있는 정보를 생성하도록 보장합니다. SimpleSafetyTests라는 Patronus AI의 진단 도구 모음은 적대적 테스트를 활용하여 LLM에서 중요한 안전 위험을 식별합니다. 인기 있는 genAI 플랫폼을 이러한 테스트에 제출하면, 팀은 챗봇이 SEC 보고서 및 기타 필수적인 정보를 이해하는 능력을 평가할 때에만 약 70%의 실패를 발견했습니다. 이러한 실패는 관련 데이터의 위치를 정확히 찾는 지침이 제공된 경우에만 수정되었습니다.

이러한 테스트 플랫폼의 필요성은 현재의 AI 시스템의 한계에서 비롯되며, 회사들은 AI가 생성한 콘텐츠의 신뢰성을 믿는 데 어려움을 겪고 있습니다. LLM에 대한 신뢰 부족은 언어 모델의 환각, 부정확성 및 편향에 대한 우려에서 비롯됩니다. 현재의 품질 보증 방법은 대규모에서 오류를 잡는 데 불충분하여, SimpleSafetyTests와 같은 자동화 도구들이 출현하게 되었습니다.

전망을 살펴보면, 산업 분석가들은 genAI 기술에 대한 의존도가 증가함에 따라 증가된 사이버 보안 조치의 요구가 필요해질 것으로 예상됩니다. 이 증가된 요구는 2025년까지 AI 시스템 보안에 할당되는 지출이 15% 증가할 수 있습니다. 회사들이 AI 도입을 계속 탐색하는 동안, 이러한 시스템을 인간의 개입 없이 자동으로 운영할 수는 없다는 점을 인식하는 것이 중요합니다. AI가 생성한 콘텐츠로 인해 발생할 수 있는 문제를 확인하고 수정하는 데는 인간의 참여가 필수적입니다.

결론적으로, Patronus AI의 새로운 테스트 플랫폼은 생성적 AI의 빠르게 진화하는 분야에서 언어 모델의 신뢰성을 보장하기 위한 귀중한 솔루션을 제공합니다. 오류 감지와 안전성 평가를 위한 자동화된 도구를 제공함으로써 SimpleSafetyTests는 회사들이 AI 시스템에 대한 신뢰를 구축하고 부정확하거나 잘못된 정보와 관련된 위험을 회피하는 데 도움을 줍니다.

The source of the article is from the blog kewauneecomet.com