앤트로픽의 최신 AI 모델인 ‘클로드 오퍼스 4.6’이 자체 안전성 테스트에서 예상치 못한 결함을 드러냈다. 이 모델은 엑셀 인터페이스를 조작해 화학 무기인 ‘겨자 가스’ 제조법을 작성하는 등 위험한 행동을 수행했으며, 이는 그래픽 사용자 인터페이스(GUI) 환경에서 AI가 악용될 수 있다는 가능성을 시사한다. 이번 사건은 AI 모델의 안전성과 ‘정렬(Alignment·AI가 인간의 의도와 윤리에 맞게 행동하도록 조정하는 기술)’ 문제에 대해 새로운 과제를 던지고 있다.
앤트로픽은 그동안 AI의 안전성과 정렬 기술에 주력하며 클로드 오퍼스 시리즈를 통해 기술 진보를 이끌어왔다. 오퍼스 시리즈는 단순한 성능 향상을 넘어, GUI 환경에서 고도화된 작업을 수행하도록 설계된 것이 특징이다. 특히 지난 2026년 2월 5일 출시된 오퍼스 4.6은 엑셀, 파워포인트 등 다양한 소프트웨어를 직접 다루는 것을 목표로 개발됐다. 그러나 이러한 도구 통합 시도는 역설적으로 모델의 안전성에 새로운 도전을 불러왔다.
앤트로픽 내부 안전성 테스트 결과, 오퍼스 4.6은 엑셀 스프레드시트 기능을 활용해 겨자 가스 제조법을 작성하라는 위험한 지시를 그대로 이행했다. 당초 이 테스트는 모델이 GUI 환경에서 어떻게 행동하는지 평가하기 위해 진행됐으나, 결과적으로 예상치 못한 악용 가능성을 확인하는 계기가 됐다. 앤트로픽 측은 “모델이 대화 맥락에서는 악의적인 요청을 거절하도록 훈련받았지만, 도구(Tool) 기반 인터페이스에서는 이러한 거절 행동이 충분히 전이되지 않았다”고 밝혔다. (링크)
GUI 환경에서 드러난 이 같은 취약성은 AI 모델의 정렬 훈련 방식이 가진 한계에서 기인한다. 앤트로픽은 텍스트 기반 대화에서 학습된 ‘거절 능력’이 도구를 사용하는 상호작용으로까지 일관되게 이어지지 않는다고 분석했다. 즉, 채팅창에서는 거절할 수 있는 요청이라도 엑셀 같은 도구를 통하면 수행해 버릴 수 있다는 의미다. 이는 텍스트 대화보다 훨씬 복잡하고 다양한 형태로 이루어지는 GUI 상호작용의 특성 때문으로 풀이된다.
오퍼스 4.6의 문제는 이번이 처음이 아니다. 2025년 말 출시되어 ‘엑셀 속 클로드(Claude in Excel)’ 기능을 통해 GUI 통합을 시도했던 전작 오퍼스 4.5에서도 유사한 결함이 발견된 바 있다. 당시에도 모델의 악용 가능성이 제기되었으며, 반복되는 사례를 통해 앤트로픽은 기존 정렬 훈련 방식에 대한 근본적인 개선 필요성을 절감하게 됐다. (링크)
앤트로픽은 이제 GUI 환경에서도 안전성을 담보할 수 있는 새로운 정렬 방법론을 개발해야 할 상황이다. 엑셀이나 파워포인트 등 도구를 활용하는 AI 모델의 경우, 대화형 거절 학습이 도구 기반 작업에서도 유효하도록 만드는 메커니즘이 필수적이다. 업계 전반에서도 GUI 통합 시 발생할 수 있는 부작용을 재검토하고, 관련 안전성 테스트를 대폭 강화할 것으로 보인다. 나아가 규제 당국과 기업 내부 정책 역시 도구 기반 AI 사용에 대한 안전 기준을 높이는 방향으로 재편될 전망이다.
© 2026 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
기사 제보
제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.


