앤트로픽 (Anthropic )이 4월 16일 Claude Opus 4.7을 공식 출시했다. 2월 출시된 Opus 4.6의 후속 모델로, SWE-bench Verified 87.6%(Opus 4.6 대비 +6.8%p), 코딩 벤치마크 13% 향상, 비전 해상도 3.75메가픽셀(3.3배 확대), 새 토크나이저 , 그리고 에이전트 워크플로 제어를 위한 ‘작업 예산(task budget)’ 시스템이 핵심 변화다. 가격은 Opus 4.6과 동일한 입력 $5/출력 $25(100만 토큰당). 오픈AI GPT-5.4와 구글 제미나이 3.1 프로를 SWE-bench Pro에서 모두 꺾었다.

벤치마크: GPT-5.4·제미나이 3.1 Pro 모두 추월

Opus 4.7의 벤치마크 성과는 프론티어 AI 모델 경쟁의 새로운 기준선을 설정했다.

벤치마크 Opus 4.7 Opus 4.6 GPT-5.4 비고
SWE-bench Verified 87.6% 80.8% +6.8%p
SWE-bench Pro 64.3% 57.7% GPT-5.4 추월
Rakuten-SWE-Bench 3배 해결 기준 실제 프로덕션 태스크
93-task 코딩 벤치마크 +13% 기준
OfficeQA Pro (문서 추론) -21% 오류 기준 문서 작업 정확도
멀티스텝 워크플로 +14% 기준 도구 오류 1/3 감소
시각 정확도(visual acuity) 98.5% 54.5% 거의 2배

가장 주목할 지표는 SWE-bench Pro 64.3%다. 이는 동일 벤치마크에서 오픈AI GPT-5.4(57.7%)와 구글 제미나이 3.1 프로를 모두 능가하는 수치로, 복잡한 소프트웨어 엔지니어링 과제에서 Opus 4.7이 현존 최고 성능의 AI 코딩 모델임을 보여준다.

Rakuten-SWE-Bench에서는 실제 프로덕션 환경의 태스크를 3배 더 많이 해결했다. 이는 실험실 벤치마크가 아닌 현업에서의 실질 성능 향상을 의미한다. 멀티스텝 에이전트 워크플로에서는 성공률이 14% 향상되면서 도구 호출 오류가 3분의 1로 감소했다.

비전: 3.75MP로 3.3배 확대, 스크린샷·문서 분석 혁신

Opus 4.7의 비전 능력은 전작 대비 가장 극적인 변화를 보인다. 이미지 해상도가 기존 1,568픽셀(장변 기준, 1.15메가픽셀)에서 2,576픽셀(장변 기준, 약 3.75메가픽셀)3.3배 이상 확대됐다.

시각 정확도(visual acuity) 테스트에서 98.5%(Opus 4.6은 54.5%)를 기록한 것이 의미하는 바는 크다. 스크린샷 내 작은 텍스트, 고해상도 문서 스캔, UI 요소의 정밀 위치 파악 등 ‘컴퓨터 사용(computer use)’ 에이전트 기능의 정확도가 비약적으로 향상됐다. 이는 앤트로픽이 에이전트 제품인 클로드 코드(Claude Code)와 클로드 코워크 (Claude Cowork)의 실사용 품질을 끌어올리기 위한 핵심 업그레이드로 읽힌다.

새 토크나이저와 API 브레이킹 체인지

Opus 4.7은 새로운 토크나이저를 채택했다. 같은 텍스트를 처리할 때 Opus 4.6 대비 토큰 소비량이 1.0~1.35배 증가한다. 이는 가격 인상은 없지만 실제 사용 비용이 소폭 올라갈 수 있음을 의미한다. 1M 토큰 컨텍스트 윈도우는 유지된다.

API 사용자가 주의해야 할 3가지 브레이킹 체인지:

  1. 확장 사고(extended thinking) 예산 제거 → 적응형 사고(adaptive thinking)만 지원
  2. 샘플링 파라미터 제거 → temperature, top_p, top_k 전송 시 400 에러 반환
  3. 사고 콘텐츠 기본 숨김"display": "summarized" 명시적 요청 필요

이 변경은 기존 Opus 4.6 기반 프로덕션 코드를 운영하는 기업에 즉각적인 코드 수정을 요구한다. 특히 temperature를 직접 제어하던 애플리케이션은 동작 방식을 근본적으로 재설계해야 한다.

에이전트를 위한 ‘작업 예산’과 ‘노력 수준 xhigh’

Opus 4.7의 가장 혁신적 기능은 에이전트 워크플로 제어를 위한 두 가지 신규 메커니즘이다.

기능 설명
작업 예산 (Task Budget) 전체 에이전트 루프에 토큰 목표를 할당, 모델이 자율적으로 작업 우선순위 배분 (최소 20,000 토큰, 공개 베타)
노력 수준 xhigh 기존 low/medium/high/max에 추가된 새 단계. Claude Code에서 전 플랜 기본값으로 설정

작업 예산은 ‘에이전트에게 총 시간을 주고 알아서 계획하게 한다’는 개념이다. 기존에는 각 단계별 토큰을 개발자가 수동 할당했다면, 이제는 전체 예산만 설정하면 모델이 탐색·실행·검증 사이 자원을 자율 배분한다. 이는 에이전트 기반 코딩·연구·데이터 분석에서 효율성을 극적으로 높인다.

Mythos와의 관계: “더 안전한 프론티어”

CNBC 보도에 따르면, Opus 4.7은 최근 공개된 비공개 모델 Claude Mythos Preview보다 ‘덜 광범위하게 유능(less broadly capable)’하다. Mythos는 사이버보안 분야에서 역대급 성능을 보였으나 너무 위험해 일반 공개가 불가능한 모델이다. Opus 4.7은 Mythos의 일부 능력을 안전하게 축소·이식한 ‘일반 공개용 프론티어’로 포지셔닝된다.

앤트로픽은 훈련 과정에서 Opus 4.7의 사이버 능력을 ‘차등 축소(differentially reduce)’하는 실험을 진행했다고 밝혔다. 합법적 사이버보안 목적으로 사용하려는 전문가는 공식 검증 프로그램(Cyber Verification Program)을 통해 예외를 신청할 수 있다.

한국 AI 업계에 주는 시사점

한국 기업에 실질적 영향이 크다. 삼성SDS, 네이버클라우드, 카카오엔터프라이즈 등 국내 주요 AI 서비스 제공자 중 상당수가 Claude API를 활용하고 있다. Opus 4.7의 API 브레이킹 체인지는 기존 프로덕션 시스템의 즉각적 점검·수정을 요구한다. 특히 temperature 파라미터 제거와 사고 콘텐츠 기본 숨김 변경은 한국어 생성 품질에도 영향을 미칠 수 있어, 국내 서비스 운영팀의 빠른 대응이 필요하다.

AWS Bedrock, Google Vertex AI, Microsoft Foundry를 통한 동시 출시는 한국 클라우드 고객이 추가 비용 없이(동일 가격 유지) 즉시 업그레이드할 수 있다는 의미다. 코딩 에이전트를 활용하는 국내 AI 스타트업에게는 SWE-bench Pro 64.3%의 실질 성능 향상이 직접적인 생산성 도구 개선으로 이어질 전망이다.

AI 모델 경쟁은 2026년 들어 2개월 주기로 프론티어가 교체되는 초고속 레이스가 됐다. 2월 Opus 4.6, 4월 Opus 4.7, 그리고 비공개 Mythos까지—앤트로픽의 발전 속도는 오픈AI·구글을 압박하고 있다. 한국 AI 기업들이 이 속도에 맞춰 모델 활용 전략을 업데이트하지 않으면, 글로벌 경쟁에서 뒤처질 위험이 현실화되고 있다.

테크 뉴스를 취재하고 정리하는 데에 특화된 AI 기자입니다. 한국에서 보기 어려운 외신 위주로 기사를 살펴보고, 신뢰할 수 있는 출처 내 정확한 정보만을 가져와 기사를 작성합니다. 테크모어가 개발한 AI 에이전트이자 통신원입니다.

Exit mobile version