"인턴 수준도 버겁다"... 최신 AI, 복잡한 실무 수행 능력 25% 불과

마이크로소프트의 사티아 나델라 CEO가 인공지능(AI)이 사무직 지식 노동을 대체할 것이라 예견한 지 어느덧 2년이 흘렀다. 그러나 현장의 변화는 예상보다 더디게 진행되고 있다. 테크크런치는 AI 학습 데이터 기업 머코어(Mercor)의 최신 연구 결과를 인용해 그 원인을 분석했다.

지식 노동 자동화에 대한 기대감은 오랫동안 시장을 지배해 왔다. 머코어는 이러한 기대를 객관적으로 검증하기 위해 ‘에이펙스 에이전트(Apex-Agents)’라는 벤치마크를 자체 개발했다. 이는 컨설팅, 투자은행(IB), 법률 등 전문직 종사자들이 수행하는 업무를 AI 모델이 얼마나 잘 소화할 수 있는지 평가하기 위해 설계된 지표다. 특히 슬랙 (Slack)이나 구글 드라이브(Google Drive)와 같은 다양한 도구를 넘나들며 복잡한 문제를 해결해야 하는 ‘다중 도메인 추론’ 능력이 핵심 평가 요소다.

논문 작성에 참여한 브렌던 푸디 머코어 CEO는 AI 모델의 가장 큰 걸림돌로 ‘여러 영역에 걸친 정보 추적’을 꼽았다. 이는 인간이 수행하는 지식 노동의 필수적인 요소다. 푸디 CEO는 테크크런치와의 인터뷰에서 “이번 벤치마크의 가장 큰 혁신은 실제 전문 서비스 환경을 그대로 구현했다는 점”이라고 설명했다. 그는 “우리는 한 사람이 모든 맥락을 단일 채널로 제공하는 방식이 아니라, 슬랙과 구글 드라이브 등 다양한 도구를 복합적으로 활용하며 일한다”고 강조했다. 현재 대다수의 에이전트형 AI 모델은 이러한 다중 영역 추론에서 여전히 취약한 모습을 보이고 있다.

에이펙스 에이전트 벤치마크 평가 결과, AI 모델들은 25% 이하의 정확도를 기록하며 기대에 미치지 못했다. 가장 높은 성능을 보인 모델은 구글의 ‘제미나이 3 플래시(Gemini 3 Flash)’와 오픈AI의 ‘GPT-5.2’였으나, 이마저도 각각 24%와 23%의 정답률에 그쳤다. ‘오푸스 4.5(Opus 4.5)’, ‘제미나이 3 프로’, ‘GPT-5’ 등은 약 18% 수준에 머물렀다. 브렌던 푸디는 “이 벤치마크에서 인턴 수준의 성과를 내려면 최소 25%는 맞춰야 한다”고 지적했다. 다만 그는 전년도 5~10% 수준에서 빠르게 성능이 개선되고 있다는 점은 긍정적으로 평가했다.

에이펙스 에이전트는 기존 벤치마크와 달리 고부가가치 전문직의 연속적인 과업 수행 능력을 측정한다는 점에서 차별화된다. 오픈AI의 ‘GDPVal’ 벤치마크가 다양한 직업군에 대한 일반적인 지식을 평가한다면, 에이펙스 에이전트는 투자은행, 컨설팅, 법률 분야의 실질적인 업무 수행 능력을 중점적으로 검증한다.

연구진은 현재 AI의 한계를 인정하면서도, 빠른 성능 향상 추세를 근거로 향후 발전 가능성을 낙관하고 있다. 머코어는 2026년 1월 20일, 논문 사전 공개 사이트 아카이브(arXiv)에 에이펙스 에이전트 논문을 공개하며 AI 연구 커뮤니티의 이목을 집중시켰다. 이번 벤치마크 공개는 관련 기술 발전을 한층 가속화하는 계기가 될 것으로 기대된다.

About

“인턴 수준도 버겁다”… 최신 AI, 복잡한 실무 수행 능력 25% 불과

스피노사우루스, 최애 공룡 1위 등극… ‘공룡덕후박람회’ 뜨거운 현장

봇 트래픽, 인터넷 역사상 최초로 인간 추월… 57.5% vs 42.5%

노션, 앤스로픽 장애 12시간 만에 서비스 복구