AI 모델 성능: 벤치마크를 넘어서

인공지능(AI) 모델은 여러 기준에서 인간 수준을 뛌어넘는 성과를 지속적으로 이루고 있습니다. 그러나 이러한 기준들은 제한 사항이 있어 연구자들이 새로운 평가 방법을 찾도록 격려하고 있습니다. Abacus.AI에 의해 개발된 Smaug-72B 같은 AI 모델은 80 이상의 평균 점수를 달성했지만, 어떠한 모델도 어떤 기준에서든 100점을 달성한 것은 없습니다.

AI 모델이 기존 벤치마크의 한계를 뛰어넘는 가운데 연구자들은 “포화”라는 개념에 직면하게 됩니다. 이 현상은 모델이 특정 벤치마크를 넘어선 경우나 특정 시험 문제에 과적합된 경우, 정해진 작업에서 강력한 성능을 보이지만 새로운 상황이나 변화에 대해 도전을 겪는 것을 의미합니다. 이 포화 현상을 극복하기 위해서는 AI 모델의 진화하는 능력을 정확히 평가하는 새로운 벤치마크를 설계하는 것이 필요합니다.

이에 대응하여 Chatbot Arena와 같은 플랫폼들이 등장하여 전통적인 벤치마크의 한계를 극복하려 하고 있습니다. Large Model Systems Organization이 설립한 이 플랫폼은 방문자들이 AI 모델들과 연결되어 질문에 더 나은 대답을 제공하는 모델에 투표할 수 있게 합니다. Chatbot Arena은 30만 명 이상의 인간 투표로 순위에 기여함으로써 언어 모델을 평가하는 보다 통합적인 접근을 제공합니다.

연구자들은 벤치마크만으로는 AI 능력의 다양성을 충분히 포착할 수 없다고 인식하고 있습니다. 추리 벤치마크에서 뛰어난 성과를 보이는 모델일지라도, 법적 문서 분석이나 사용자와의 효율적 상호작용과 같은 특정 사용 사례에서는 여전히 어려움을 겪을 수 있습니다. 이에 대응하여 연구자들은 AI 모델의 성능을 다양한 맥락에서 평가하는 “vibe checks”를 진행하여 상호작용 능력, 정보 보존 능력, 일관된 성격을 유지하는 능력 등을 평가합니다.

벤치마크는 AI 개발자들이 혁신할 수 있도록 격려하는 데 중요한 역할을 하지만, 대안적인 평가 방법으로 보완되어야 합니다. 그들의 불완전함을 인식하며, 연구자들은 AI 모델의 능력과 한계에 대한 종합적인 이해를 추구합니다. 새로운 평가 방법을 수용하고 현실 세계의 사용 사례를 고려함으로써, 연구자와 개발자들은 AI 성능의 전선을 계속해서 발전시킬 수 있습니다.