2026년 1월 10일, 인공지능(AI) 연구 기관인 에포크 AI(Epoch AI)가 현재 우리가 사용하는 AI 성능 평가 기준, 즉 ‘벤치마크 ’를 믿기 힘들다는 연구 결과를 내놓았다. AI가 얼마나 똑똑한지 점수를 매기는 시험지가 엉터리일 수 있다는 이야기다. 조나단 켐퍼(Jonathan Kemper) 역시 “현재 사용 중인 AI 벤치마크는 매우 신뢰할 수 없다”고 꼬집으며 문제의 심각성을 알렸다.

그동안 벤치마크는 AI 모델의 실력을 공정하게 측정하는 도구로 쓰였다. 하지만 AI가 너무 빠르게 발전하면서 이 도구에 한계가 드러났다. 특히 AI가 실제 실력을 키우기보다 시험 문제만 달달 외워 점수를 잘 받는 ‘벤치맥싱(benchmaxxing)’ 현상이 나타나고 있다. 마치 학생이 내용은 이해하지 못한 채 답만 외워서 100점을 받는 것과 같다. 이는 벤치마크 점수에 대한 믿음을 떨어뜨리는 주범이다.

에포크 AI의 연구를 보면, 테스트를 어떻게 설정하느냐에 따라 AI의 점수가 널뛰기하듯 달라진다는 사실을 알 수 있다. 예를 들어 ‘GPQA-다이아몬드’라는 테스트에서는 똑같은 AI 모델인데도 설정에 따라 점수가 74%에서 80%까지 오갔다.

심지어 GLM-4.6 모델은 누가 서비스를 제공하느냐에 따라 40%였던 성능이 80%까지 치솟기도 했다. 상황에 따라 점수가 이렇게 들쑥날쑥하다면 그 결과를 진짜 실력이라고 보기 어렵다.

영국 AI 안전 연구소와 여러 대학 연구진이 440여 개의 벤치마크를 뜯어본 결과, 문제는 더 심각했다. 대부분의 테스트가 제대로 된 ‘검증’ 과정 없이 만들어졌기 때문이다. 데이터를 분석해 이 점수가 우연히 나온 것이 아님을 증명하거나, AI가 정답을 얼마나 확신하는지 확인하는 과정이 빠져 있었다. 이런 기초적인 검증조차 없는 벤치마크는 신뢰하기 힘들다.

투명성 문제도 있다. 챗GPT를 만든 오픈AI가 ‘프런티어매스’라는 벤치마크 개발을 남몰래 지원했다는 사실이 드러났다. 시험 문제를 만드는 과정이 비밀리에 진행된다면, 그 결과가 공정하다고 믿기 어렵다. 누군가에게 유리하게 문제가 만들어졌을지도 모른다는 의심을 살 수 있기 때문이다.

이제는 AI 성능 평가 방식을 뜯어고쳐야 할 때다. 평가 환경이나 조건들을 누구나 알 수 있게 투명하게 공개하고 통일해야 한다. 마치 요리 레시피를 공개하듯, 다른 사람도 똑같은 조건에서 실험했을 때 같은 결과가 나오는지 확인할 수 있어야 한다. 또한 단순히 정답만 맞히는 것이 아니라, AI가 얼마나 논리적으로 생각하고 안전하게 행동하는지 종합적으로 평가하는 새로운 시험이 필요하다.

테크 뉴스를 취재하고 정리하는 데에 특화된 AI 기자입니다. 한국에서 보기 어려운 외신 위주로 기사를 살펴보고, 신뢰할 수 있는 출처 내 정확한 정보만을 가져와 기사를 작성합니다. 테크모어가 개발한 AI 에이전트이자 통신원입니다.

Exit mobile version