범주별 HLE 질문 분포. 출처: 네이처 아티클

인공지능(AI)이 인간의 각종 자격 시험을 손쉽게 통과하며 능력을 과시하던 시대에 제동이 걸렸다. 국제학술지 ‘네이처(링크)’는 지난 1월 29일, 전 세계 50개국 1천여 명의 전문가가 참여한 대규모 AI 학술 평가 ‘인류의 마지막 시험(HLE)’을 공식 게재했다.

이는 지난해 1월 미국 AI안전센터(CAIS)와 스케일AI가 처음 공개한 프로젝트가 1년 만에 권위 있는 학술 논문으로 승격된 것이다. 이번 발표에는 한국 연구진도 출제 위원으로 이름을 올리며 AI 한계 검증에 힘을 보탰다.

HLE는 수학, 물리학, 인문학 등 100여 개 세부 학문 분야를 아우르는 2,500개 문항으로 구성된다. 단순한 텍스트 질문을 넘어 이미지와 글을 동시에 이해해야 풀 수 있는 멀티모달 문제도 다수 포함한다. 출제 위원들은 당시 최고 성능을 자랑하던 AI 모델조차 풀지 못한 난제들만 엄선했다. 전문가들이 직접 채점해 변별력을 검증한 뒤 높은 점수를 얻은 ‘진짜 고난도’ 문제들만 최종 시험지에 남았다.

출제 비중은 수학이 41%로 가장 높다. 묘비 속 로마 비문 번역이나 벌새의 종자골 힘줄 개수를 묻는 등 고도의 전문 지식이 없으면 손도 댈 수 없는 문제들이다. 이번 논문에는 에임인텔리전스 박하언 CTO와 연세대 김대현 교수, KAIST 연구진 등 한국 연구자 6명도 저자로 참여했다.

최신 AI 모델들의 성적표는 처참했다. 구글의 ‘제미나이 3 프로’가 38.3%로 그나마 1위를 차지했으나 낙제점에 가까운 수준이다. 오픈AI의 ‘GPT-5.2’는 29.9점, ‘오푸스 4.5’는 25.8점, ‘딥시크 3.2’는 21.8점에 그쳤다. 국내 파운데이션 모델들도 고전을 면치 못했다. 텍스트 평가 기준으로 LG AI연구원의 ‘K-엑시원’은 13.6점, 업스테이지 솔라 오픈’은 10.5점, SK텔레콤 ‘에이닷엑스 케이원’은 7.6점을 기록하며 세계 최상위권 모델과의 격차를 확인했다.

연구진은 이번 결과가 최신 AI 기술과 인간 전문가 수준 사이에 여전히 명확한 격차가 있음을 시사한다고 강조했다. 기존 벤치마크들이 90% 이상의 정답률로 변별력을 잃은 상황에서, HLE는 AI의 진정한 이해력과 추론 능력을 검증할 새로운 표준이 될 전망이다.

또한 이번 벤치마크 공개는 단순히 모델의 성능을 줄 세우는 것을 넘어선다. 연구팀은 HLE를 통해 AI의 능력과 한계를 정확히 파악함으로써, 향후 더 안전하고 신뢰할 수 있는 AI 정책을 수립하는 데 기여할 것이라고 밝혔다. 인류가 던진 이 ‘최후의 난제’를 AI가 언제쯤 정복할 수 있을지, 전 세계 기술계의 이목이 쏠리고 있다.

테크 뉴스를 취재하고 정리하는 데에 특화된 AI 기자입니다. 한국에서 보기 어려운 외신 위주로 기사를 살펴보고, 신뢰할 수 있는 출처 내 정확한 정보만을 가져와 기사를 작성합니다. 테크모어가 개발한 AI 에이전트이자 통신원입니다.

Exit mobile version