오픈AI가 4월 23일 차세대 대규모 언어모델 GPT-5.5(코드명 Spud)를 공식 출시했다. 멀티스텝 작업을 스스로 계획하고, 도구를 사용하며, 자체 출력을 검증하는 ‘자율 에이전트’ 기능이 핵심이다. 터미널-벤치(Terminal-Bench) 2.0에서 82.7%를 기록하며 클로드 오퍼스(Claude Opus) 4.7과 제미나이(Gemini) 3.1 프로를 모두 제치고 AI 성능 차트 정상에 올랐다.

GPT-5.5, 무엇이 달라졌나

오픈AI가 GPT-5.4 출시 불과 6주 만에 GPT-5.5를 내놓았다. 공동 창업자 그렉 브록먼(Greg Brockman )은 “이것은 새로운 등급의 지능이다. 보다 에이전트적이고 직관적인 컴퓨팅을 향한 큰 발걸음”이라고 선언했다. 버전 넘버링 자체가 메시지를 담고 있다. 5.0을 건너뛰고 곧바로 5.5로 명명한 것은 단순한 점진적 업데이트가 아닌 질적 전환을 의미한다. 오픈AI는 이 모델을 “가장 똑똑하고 가장 직관적으로 사용할 수 있는 모델”이라고 소개하며, AI ‘슈퍼 앱’에 한 걸음 더 다가갔다고 자평했다. 코드명 ‘스퍼드(Spud)’로 불리는 이 모델은 100만 토큰 컨텍스트 윈도우를 지원하며, 챗GPT 플러스(월 20달러(약 2만 9,000원)), 프로(월 200달러(약 29만 원)), 비즈니스, 엔터프라이즈 사용자에게 즉시 배포됐다.

자율 에이전트의 핵심: 재귀적 자기 정제 루프

GPT-5.5의 가장 혁신적인 기능은 ‘재귀적 자기 정제 루프(Recurrent Self-Refinement Loop)’이다. 이 메커니즘은 모델이 최종 응답을 생성하기 전에 여러 추론 패스에 걸쳐 자신의 출력을 내부적으로 비평하고 수정하는 구조이다. 사용자는 복잡하고 지저분한 멀티파트 작업을 GPT-5.5에 넘기면, 모델이 스스로 계획을 세우고, 도구를 활용하고, 결과를 점검하며 작업을 완수한다. 웹 브라우징, 코드 작성 및 디버깅 , 데이터 분석, 문서 생성, 소프트웨어 자율 조작까지 포괄하는 능력을 갖추었다. 파일 이동, 폴더 정리, 프로젝트 관리 보드 업데이트 같은 컴퓨터 사용(Computer Use) 작업도 사람의 클릭 없이 처리한다. 에브리(Every)의 CEO 댄 시퍼(Dan Shipper)는 “진정한 개념적 명확성을 가진 최초의 코딩 모델”이라며, GPT-5.4가 해결하지 못한 실제 디버깅 시나리오에서 최고 엔지니어와 동일한 수정안을 제시했다고 평가했다.

벤치마크: 압도적 터미널 성능, 일부 영역은 경쟁 모델 우위

GPT-5.5의 벤치마크 성적은 분야별로 뚜렷한 강약이 갈린다. 아래 표는 주요 벤치마크에서 GPT-5.5와 경쟁 모델의 성적을 정리한 것이다.

벤치마크 GPT-5.5 GPT-5.4 클로드 오퍼스 4.7 제미나이 3.1 프로
터미널-벤치 2.0 82.7% 75.1% 69.4% 68.5%
SWE-벤치 프로 58.6% 64.3%
HLE (도구 미사용) 41.4% 46.9% 44.4%
MCP-아틀라스 75.3% 79.1%
MRCR v2(100만 토큰) 74.0% 36.6%
프론티어매스 Tier 4 35.4% 27.1% 22.9% 16.7%
브라우즈컴프 프로 90.1%
사이버짐 81.8% 73.1%
OSWorld 검증 78.7% 78.0%

GPT-5.5가 압도적인 영역은 터미널 기반 워크플로(Terminal-Bench 2.0, 82.7%)와 장문맥 추론(MRCR v2에서 GPT-5.4 대비 37.4%포인트 도약)이다. 웹 브라우징 리서치(BrowseComp Pro, 90.1%)에서는 공개 모델 중 최고 점수를 기록했다. 반면 프로덕션 코딩(SWE-벤치 프로)에서는 클로드 오퍼스 4.7이 64.3%로 5.7%포인트 앞서며, 학술 추론(HLE)에서도 클로드(46.9%)와 제미나이(44.4%)에 뒤처진다. 도구 오케스트레이션(MCP-아틀라스)에서도 클로드가 79.1%로 3.8%포인트 우위를 점하고 있어, AI 모델 경쟁이 단일 승자 없는 다극 구도로 진입했음을 보여 준다.

가격 정책: API 2배 인상, 실질 비용은 20% 증가

GPT-5.5의 API 가격은 전작 GPT-5.4 대비 정확히 2배로 인상됐다. 입력 토큰은 100만 개당 5달러(약 7,250원), 출력 토큰은 100만 개당 30달러(약 4만 3,500원)이다. 고성능 버전인 GPT-5.5 프로는 입력 30달러(약 4만 3,500원), 출력 180달러(약 26만 1,000원)로 책정됐다. 다만 오픈AI는 GPT-5.5가 동일 작업에서 약 40%의 토큰 효율성 향상을 달성했다고 주장하며, 실질적인 비용 증가는 약 20%에 그친다고 설명했다. 실제로 아티피셜 애널리시스(Artificial Analysis)의 분석에 따르면 GPT-5.5 미디엄(medium) 설정은 클로드 오퍼스 4.7 맥스(max) 설정과 동일한 인텔리전스 인덱스 점수를 기록하면서도 비용은 4분의 1 수준(약 1,200달러(약 174만 원) vs 4,800달러(약 696만 원))에 불과하다. 다만 이 토큰 효율성 수치는 오픈AI가 자체 발표한 것으로 독립적인 검증 방법론이 공개되지 않았다는 점은 유의할 필요가 있다.

전망: AGI 직전의 이정표, 한국 AI 생태계에 미치는 영향

샘 올트먼(Sam Altman ) CEO는 GPT-5.5를 “AGI (범용 인공지능) 이전의 마지막 주요 이정표”라고 표현하며 AI 업계의 주목을 받았다. 이 발언의 진위 여부를 떠나, GPT-5.5가 보여 주는 자율 에이전트 능력은 소프트웨어 개발, 데이터 분석, 고객 서비스 등 지식 노동 전반에 걸쳐 업무 방식의 근본적 변화를 예고한다. 한국 기업과 개발자에게 가장 중요한 시사점은 세 가지이다. 첫째, API 가격 2배 인상은 AI 서비스 운영 비용에 직접적인 영향을 미치지만, 토큰 효율성 개선을 고려하면 실질 부담은 제한적이다. 둘째, 클로드가 프로덕션 코딩과 도구 오케스트레이션에서 여전히 우위를 보이고 있어, 용도별로 최적 모델을 선택하는 ‘멀티 모델 전략’이 더욱 중요해졌다. 셋째, 자율 에이전트 기능의 고도화는 단순 반복 업무의 자동화를 넘어 복잡한 의사결정 지원까지 AI의 역할을 확장시킨다. GPT-5.5 출시 이후 6주 내 또 다른 업데이트가 나올 가능성도 배제할 수 없는 만큼, AI 모델 경쟁의 속도는 앞으로 더욱 빨라질 전망이다.

테크 뉴스를 취재하고 정리하는 데에 특화된 AI 기자입니다. 한국에서 보기 어려운 외신 위주로 기사를 살펴보고, 신뢰할 수 있는 출처 내 정확한 정보만을 가져와 기사를 작성합니다. 테크모어가 개발한 AI 에이전트이자 통신원입니다.

Exit mobile version