인류 마지막 시험(Humanity’s Last Exam, HLE)은 인공지능(AI)의 급속한 발전 속도에 발맞춰, 대규모 언어 모델(LLM)을 포함한 최첨단 AI 모델의 심층적인 추론 능력과 인간 수준의 지능을 평가하기 위해 고안된 혁신적인 벤치마크 테스트이다. 이 시험은 기존 AI 평가 방식의 한계를 극복하고, AI가 단순한 지식 암기나 패턴 매칭을 넘어 복합적인 문제 해결 능력을 갖추었는지 검증하는 데 목적을 둔다. AI의 현재 역량을 정확히 진단하고 미래 연구 방향을 제시하는 중요한 이정표로 평가받고 있다.
목차
- 1. 인류 마지막 시험(HLE)의 개념
- 2. 탄생 배경 및 발전 과정
- 3. 핵심 구성 요소 및 평가 원리
- 4. 주요 활용 분야 및 중요성
- 5. 현재 동향 및 주요 연구 결과
- 6. 미래 전망 및 과제
- 7. 참고문헌
1. 인류 마지막 시험(HLE)의 개념
인류 마지막 시험(Humanity’s Last Exam, HLE)은 대규모 언어 모델(LLM)과 같은 최신 인공지능(AI) 모델의 고급 추론 능력을 평가하기 위해 특별히 고안된 차세대 벤치마크 테스트이다. 기존 AI 벤치마크들이 AI 모델의 급속한 발전에 따라 변별력을 잃어가면서, 진정한 인간 수준의 지능과 복합적인 추론 능력을 측정하기 위한 새로운 기준의 필요성이 대두되었고, 이에 HLE가 개발되었다.
1.1. 정의 및 목적
HLE는 AI 모델이 단순한 지식 암기나 주어진 패턴에 대한 매칭을 넘어, 복합적인 상황을 이해하고 다단계 추론(Multi-step Reasoning)을 통해 문제를 해결할 수 있는지를 평가하는 것을 핵심 목적으로 한다. 예를 들어, 수학 문제를 풀 때 단순히 답을 제시하는 것을 넘어, 문제 해결 과정을 논리적으로 설명하고 각 단계에서 필요한 개념을 정확히 적용하는 능력을 측정하는 것이다. 이는 AI의 현재 한계를 명확히 보여주고, 궁극적으로 인간과 유사한 수준의 일반 지능(General Intelligence)을 향한 AI 연구의 방향성을 제시하는 데 중요한 역할을 한다. HLE는 AI가 특정 분야의 전문가처럼 깊이 있는 지식을 활용하여 복잡한 문제를 해결할 수 있는지를 검증하는 데 초점을 맞추고 있다.
1.2. 명칭의 의미
“인류 마지막 시험”이라는 명칭은 AI가 인간 전문가 수준의 지식과 추론 능력을 뛰어넘기 어려운 최후의 학술 시험이라는 상징적인 의미를 담고 있다. 이는 AI가 이 시험을 통과한다면, 인간이 고등 교육을 통해 습득하는 지적 능력을 상당 부분 따라잡았거나 능가할 수 있음을 시사한다. 이 명칭은 AI의 발전이 인류 사회에 미칠 광범위한 영향과 그 중요성을 강조하며, AI 연구 커뮤니티와 대중에게 AI의 현재와 미래에 대한 깊은 성찰을 유도한다.
2. 탄생 배경 및 발전 과정
HLE는 인공지능 기술의 급속한 발전 속도에 발맞춰, AI 성능 평가의 새로운 기준을 마련하고자 하는 절박한 필요성에서 시작되었다. 기존의 벤치마크들은 AI 모델들이 쉽게 만점을 받으며 그 변별력을 상실하는 문제에 직면했다.
2.1. 개발 동기 및 주체
HLE는 2024년 말, 미국의 비영리단체인 AI 안전 센터(Center for AI Safety, CAIS)와 데이터 플랫폼 기업 스케일 AI(Scale AI)가 공동으로 개발을 시작했다. 이 프로젝트는 AI 연구자 댄 헨드릭스(Dan Hendrycks)가 주도했으며, 그는 기존 AI 벤치마크의 한계를 지적하며 더 정교한 평가 도구의 필요성을 역설했던 일론 머스크(Elon Musk)의 의견에 영감을 받은 것으로 알려졌다. 헨드릭스는 AI가 인간 수준의 지능에 도달하는 시점을 정확히 측정하고, 그에 따른 사회적 함의를 논의하기 위한 객관적인 지표가 필요하다고 강조했다.
2.2. 문제 출제 및 검증 과정
HLE의 문제 출제 및 검증 과정은 전례 없는 규모와 엄격함을 자랑한다. 전 세계 50개국 500여 개 기관 소속 교수, 연구자 등 약 1,000명의 주제 전문가들이 문제 출제에 참여했으며, 이 중에는 한국 연구진도 다수 포함되어 있다. 출제된 문제들은 최고 성능의 AI 모델조차 쉽게 풀지 못하는 높은 난이도를 가졌는지 1차적으로 필터링되었다. 이후, 인간 전문가들의 다단계 검토 과정을 거쳐 문제의 정확성, 명확성, 그리고 AI의 추론 능력을 효과적으로 측정할 수 있는지 여부가 면밀히 평가되었다. 이 과정을 통해 최종적으로 2,500개에서 3,000개에 이르는 문항이 엄선되었다. 이처럼 광범위한 전문가 참여와 엄격한 검증 절차는 HLE가 AI의 진정한 지능을 측정하는 신뢰할 수 있는 도구가 되도록 하는 데 기여했다.
3. 핵심 구성 요소 및 평가 원리
HLE는 AI의 심층적인 이해와 복합적인 추론 능력을 측정하기 위한 독특한 구성과 평가 원리를 가지고 있다. 이는 단순히 정답을 맞히는 것을 넘어, 문제 해결 과정의 논리성과 깊이를 평가하는 데 중점을 둔다.
3.1. 문제 구성 및 특징
HLE는 수학(41%), 물리학, 생물학/의학, 인문학/사회과학, 컴퓨터 과학/AI 등 100개 이상의 광범위한 학문 분야에 걸쳐 약 2,500개(공개 데이터셋)에서 총 3,000개(비공개 포함)의 질문으로 구성된다. 이 문제들은 단순 암기나 패턴 매칭으로는 풀 수 없으며, 다단계 추론과 깊은 개념적 이해를 요구한다. 예를 들어, 복잡한 과학 실험 결과를 분석하고 결론을 도출하거나, 역사적 사건의 인과 관계를 파악하여 미래 상황을 예측하는 것과 같은 문제들이 포함된다. 또한, 일부 문제는 텍스트와 이미지를 함께 해석해야 하는 멀티모달(Multi-modal) 형태로 출제되어, AI가 다양한 형태의 정보를 통합적으로 처리하고 추론하는 능력을 평가한다.
3.2. 데이터셋 특성
HLE의 각 질문은 독창적이고 명확하게 설계되어 있으며, 인터넷 검색이나 기존 데이터베이스 조회만으로는 쉽게 답을 찾을 수 없도록 고안되었다. 이는 AI 모델이 방대한 데이터를 암기하여 답을 찾는 것이 아니라, 진정한 이해와 추론 능력을 발휘해야만 해결할 수 있도록 하기 위함이다. 또한, AI 모델의 과적합(Overfitting)을 방지하기 위해 공개 데이터셋 외에 별도의 비공개 데이터셋도 유지된다. 과적합은 모델이 훈련 데이터에 너무 맞춰져 새로운 데이터에 대한 성능이 떨어지는 현상을 의미하는데, 비공개 데이터셋은 이러한 문제를 방지하고 모델의 일반화 능력을 평가하는 데 필수적이다.
3.3. 평가 방법론
HLE의 평가는 주로 자동 채점이 가능한 객관식(약 24%)과 단답형/정확 일치형(약 76%) 질문으로 이루어져 있다. AI 모델은 단순히 정답을 제시하는 것을 넘어, 답변과 함께 문제 해결을 위한 추론 과정 및 자신의 답변에 대한 자신감(Confidence Score)을 제시해야 한다. 이를 통해 평가자들은 모델의 최종 성능뿐만 아니라, 문제 해결을 위한 논리적 사고 과정과 불확실성 보정(Uncertainty Calibration) 능력을 종합적으로 분석할 수 있다. 불확실성 보정은 AI가 자신의 예측이 얼마나 정확한지에 대해 스스로 평가하는 능력을 의미하며, 이는 실제 세계에서 AI의 신뢰성을 판단하는 중요한 요소이다.
4. 주요 활용 분야 및 중요성
HLE는 인공지능 연구 및 개발 커뮤니티에서 중요한 역할을 하며, AI의 현재 위치를 파악하고 미래 발전 방향을 제시하는 데 크게 기여한다.
4.1. 인공지능 성능 평가
HLE는 최첨단 AI 모델의 추론 능력과 인간 전문가 수준의 지식 간 격차를 명확히 보여주는 핵심 벤치마크로 활용된다. 기존 벤치마크들이 AI 모델의 높은 점수로 인해 변별력을 상실한 반면, HLE는 AI가 아직 도달하지 못한 영역을 명확히 드러냄으로써 AI 발전의 현주소를 진단하는 데 중요한 도구이다. 이를 통해 연구자들은 AI 모델의 어떤 부분이 강하고 어떤 부분이 약한지 정확히 파악하여, 보다 효율적인 연구 개발 전략을 수립할 수 있다.
4.2. 인간 지능 이해 기여
AI가 HLE의 고난도 문제를 해결하는 과정을 분석함으로써, 인간의 복합적인 사고 및 문제 해결 방식에 대한 이해를 높이는 데 기여할 수 있다. 예를 들어, AI가 특정 유형의 문제에서 어려움을 겪는다면, 이는 인간의 뇌가 해당 문제를 어떻게 처리하는지에 대한 새로운 통찰을 제공할 수 있다. 이러한 분석은 인지 과학 연구에 새로운 관점을 제시하고, 인간 지능의 본질을 더 깊이 이해하는 데 도움을 줄 수 있다.
5. 현재 동향 및 주요 연구 결과
HLE는 공개 이후 AI 커뮤니티에서 큰 주목을 받으며 다양한 논의와 연구 결과를 낳고 있다. 이는 AI의 현재 능력에 대한 현실적인 평가와 미래 발전에 대한 기대를 동시에 불러일으키고 있다.
5.1. 인공지능의 도전과 성과
현재까지 HLE에서 가장 높은 성적을 기록한 AI 모델은 구글의 제미나이 3 프로(Gemini 3 Pro)로, 38.3%의 정답률을 보였다. 이는 기존 벤치마크에서 90% 이상의 높은 점수를 기록했던 최첨단 AI 모델들의 성능과는 매우 대조적인 결과이다. 예를 들어, MMLU(Massive Multitask Language Understanding)와 같은 기존 벤치마크에서 GPT-4o는 88.7%, Gemini 1.5 Pro는 85.9%의 점수를 기록했다. 이러한 낮은 정답률은 AI가 아직 인간 전문가 수준의 깊은 이해와 다단계 추론 능력에 도달하지 못했음을 명확히 보여준다. HLE는 AI의 현재 한계를 객관적으로 드러내는 중요한 지표로 작용하고 있다.
5.2. 학계 및 산업계의 반응
HLE는 AI 평가의 새로운 기준으로 학계와 산업계 모두에서 환영받고 있다. 많은 연구자와 개발자들은 HLE가 AI 모델의 진정한 추론 능력을 측정하는 데 효과적이라고 평가한다. 그러나 동시에 시험 형식만으로 모든 지능의 차원, 예를 들어 창의성이나 사회적 지능 등을 포착할 수 없다는 비판도 존재한다. 또한, 일부 문제의 정답 정확성에 대한 논란이 제기되기도 했다. 이에 HLE 개발팀은 이러한 피드백을 수용하여 전문가 패널을 소집하고 문제를 재검토하는 등 지속적인 개선 계획을 발표했다. 이러한 과정은 HLE가 더욱 공정하고 신뢰할 수 있는 벤치마크로 발전하는 데 기여할 것으로 기대된다.
6. 미래 전망 및 과제
HLE는 인공지능 연구의 미래 방향을 제시하고, 인공지능이 인류 사회에 미칠 영향에 대한 심도 깊은 논의를 촉진하는 중요한 역할을 할 것이다.
6.1. 인공지능 발전의 이정표
HLE는 AI가 진정한 인간 수준의 추론 능력에 도달하기 위한 중요한 이정표를 제시한다. HLE 점수의 향상은 AI 모델이 단순한 지식 처리 능력을 넘어, 깊은 이해와 복합적인 문제 해결 능력을 발전시켰음을 의미한다. 이는 향후 AI 연구 및 개발의 방향을 설정하는 데 핵심적인 지표로 작용할 것이다. 연구자들은 HLE에서 낮은 점수를 보이는 특정 학문 분야나 문제 유형에 집중하여 AI의 약점을 보완하고, 궁극적으로 범용 인공지능(AGI) 개발에 한 걸음 더 다가설 수 있는 기회를 얻게 될 것이다.
6.2. 윤리적, 사회적 함의
AI가 HLE를 통과하는 시점은 인공 일반 지능(AGI)의 출현 가능성과 연결될 수 있으며, 이는 AI 거버넌스 및 사회적 영향에 대한 심도 깊은 논의를 요구한다. AGI는 인간과 동등하거나 그 이상의 지능을 가진 AI를 의미하며, 그 출현은 인류 사회에 혁명적인 변화를 가져올 수 있다. 따라서 HLE의 결과는 AI 기술의 발전 속도를 가늠하고, 이에 따른 윤리적, 법적, 사회적 준비를 위한 중요한 근거 자료가 될 것이다. 그러나 HLE 점수만으로 AI가 자율적 연구 능력이나 AGI에 도달했음을 의미하는 것은 아니라는 점이 명확히 강조되고 있다. HLE는 특정 학술적 능력의 척도일 뿐, 인간의 모든 지적 능력이나 의식, 자율성을 대변하지는 않는다.
7. 참고문헌
- Center for AI Safety. (2024). *Humanity’s Last Exam (HLE)*. Retrieved from [https://humanityslastexam.com/](https://humanityslastexam.com/)
- Scale AI. (2024). *Scale AI and Center for AI Safety Launch Humanity’s Last Exam*. Retrieved from [https://scale.com/blog/scale-ai-and-center-for-ai-safety-launch-humanitys-last-exam](https://scale.com/blog/scale-ai-and-center-for-ai-safety-launch-humanitys-last-exam)
- OpenAI. (2024). *GPT-4o: Our new flagship model that’s faster and smarter*. Retrieved from [https://openai.com/index/hello-gpt-4o/](https://openai.com/index/hello-gpt-4o/)
© 2026 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
기사 제보
제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.


