오픈AI, SWE벤치 평가 중단 선언… AI 코딩 벤치마크 '오염' 심각

AI 코딩 능력의 산업 표준으로 통하던 SWE벤치 베리파이드(SWE-bench Verified)가 심각한 결함 투성이인 것으로 드러났다.

훈련 데이터 오염, “모델이 답을 외웠다”

SWE벤치 베리파이드는 깃허브(GitHub) 실제 이슈를 기반으로 AI 모델의 코드 수정 능력을 측정하는 벤치마크다. 500개 문제로 구성돼 있으며, 2024년부터 AI 코딩 에이전트의 핵심 성적표 역할을 해왔다. 오픈AI , 앤트로픽 , 구글 등 주요 AI 기업이 신모델 출시 때마다 SWE벤치 점수를 경쟁적으로 공개해 온 대표 지표다.

그런데 오픈AI 연구진이 전문 엔지니어를 동원해 138개 문제를 정밀 분석한 결과, 전체 문제의 59.4%에 결함이 있는 것으로 나타났다. 결함 유형은 크게 두 가지다. 49개 문제는 테스트 사양이 지나치게 협소해 정답이 아닌 코드도 통과시키지 못하는 구조였고, 26개 문제는 반대로 사양이 지나치게 넓어 오답도 정답으로 인정하는 구조였다. 결국 SWE벤치의 점수가 실제 코딩 능력을 제대로 반영하지 못한다는 뜻이다.

더 심각한 문제는 훈련 데이터 오염이다. 오픈AI는 GPT-5.2, 앤트로픽의 클로드 오퍼스 4.5, 구글의 제미나이 3 플래시 등 최전선 모델들에게 문제의 작업 ID만 제시했다. 코드 저장소나 이슈 설명 없이 ID만 보여준 것이다. 결과는 충격적이었다. 세 모델 모두 원본 패치를 그대로 재현해냈다. 교차 모델 간 원문 일치율은 11.7%에서 31.6%에 달했다.

오픈AI 연구원 올리비아 왓킨스는 “진전이 정체됐다”며 “평가는 포화이며 고도로 오염됐다”고 진단했다. GPT-5.2의 경우, 오염을 통해서만 풀 수 있는 문제가 31개에 달한다는 분석 결과도 나왔다. 오픈AI는 공식 입장문에서 “점수는 모델이 얼마나 잘 코딩하는지가 아니라, 무엇을 봤는지를 반영한다”고 밝혔다. 벤치마크 점수가 사실상 ‘암기력 테스트’로 전락했다는 자인이다.

최전선 모델, 70~80%대에 몰려…변별력 상실

현재 주요 AI 모델들의 SWE벤치 베리파이드 점수는 70%에서 80% 사이에 밀집해 있다. 1위는 앤트로픽의 클로드 오퍼스 4.5로 76.8%를 기록했고, 나머지 모델들도 비슷한 수준이다. 오픈AI 연구 부사장 미아 글레이즈(Mia Glaese)는 “벤치마크는 진화를 거친다”며 “높은 성능에 도달하면 추가 0.1% 개선은 무의미하다”고 설명했다.

항목	내용
SWE벤치 베리파이드 문제 수	500개 (59.4% 결함)
전문 분석 대상	138개 문제
오염으로만 풀린 문제 (GPT-5.2)	31개
교차 모델 원문 일치율	11.7%~31.6%
최전선 모델 점수 분포	70~80% 밀집 (1위: 클로드 오퍼스 4.5, 76.8%)
SWE벤치 프로 문제 수	1,865개 / 123개 프로그래밍 언어 / 41개 저장소
SWE벤치 프로 최고 점수	45.89% (클로드 오퍼스 4.5)
SWE벤치 프로 비공개 세트 점수	14.9%~17.8%

오픈AI는 대안으로 SWE벤치 프로를 권고했다. SWE벤치 프로는 1,865개 문제를 포함하며, 123개 프로그래밍 언어와 41개 저장소를 아우른다. 기존 500개 문제에 비해 규모와 다양성이 크게 확대된 것이다. 현재 SWE벤치 프로에서 최고 점수는 앤트로픽의 클로드 오퍼스 4.5가 기록한 45.89%이며, 비공개 테스트 세트에서는 14.9%에서 17.8% 수준에 그친다.

주목할 점은 오픈AI가 자사 모델이 1위가 아닌 벤치마크를 공식 권고했다는 사실이다. 통상적으로 AI 기업들은 자사 모델이 우위를 점하는 벤치마크를 마케팅에 활용한다. 오픈AI가 경쟁사인 앤트로픽의 클로드가 1위인 벤치마크를 권고한 것은 이례적이며, 그만큼 SWE벤치 베리파이드의 오염 문제가 심각하다는 반증이다.

About

오픈AI, SWE벤치 평가 중단 선언… AI 코딩 벤치마크 ‘오염’ 심각

앤트로픽, 중국 AI 3사의 클로드 대규모 무단 증류 고발

AI 투자 충성도의 종말, 12개 VC가 오픈AI와 앤트로픽에 동시 베팅

스포티파이, AI 플레이리스트 7개국 확대…음악 추천의 패러다임 전환