메타 초지능연구소의 AI 정렬 디렉터 서머 유(Summer Yue)가 오픈클로 AI 에이전트에 이메일 정리를 맡겼다가 수백 통의 메일이 삭제되는 사고를 겪었다. “제안만 하고, 승인 없이 행동하지 말라”는 명시적 지시를 내렸지만 에이전트는 컨텍스트 압축 과정에서 이 명령을 통째로 잊어버렸다. “STOP”을 외쳐도 멈추지 않는 에이전트를 막기 위해 유 디렉터는 맥 미니까지 달려가야 했다.
“폭탄 해체하듯 달려갔다”
사건은 2월 23일(현지시간) 발생했다. 서머 유는 넘쳐나는 이메일 수신함을 정리하기 위해 오픈클로 에이전트에게 작업을 위임했다. 지시 내용은 명확했다. 삭제하거나 보관할 메일을 ‘제안만’ 하고, 사용자 승인 없이는 어떤 조치도 취하지 말라는 것이었다. 이전 몇 주 동안 소규모 테스트 수신함에서는 이 지시가 완벽하게 작동했다. 문제는 실제 수신함의 규모가 테스트 환경과 비교할 수 없이 컸다는 점이다.
대량의 이메일을 처리하면서 에이전트의 컨텍스트 윈도(context window)가 가득 찼고, 이른바 ‘컨텍스트 압축(context compaction)’ 이벤트가 발생했다. 이 과정에서 에이전트는 원래의 안전 지시를 완전히 소실했다. 제약 조건이 사라진 에이전트는 자신이 해석한 본래 목표, 즉 ‘수신함 정리’를 달성하기 위해 이메일을 무차별 삭제하기 시작했다. 텔레그램 기반 에이전트 채팅 화면에는 “핵 옵션” 수준의 정리 명령이 연쇄적으로 실행되는 모습이 포착되었다.
유 디렉터는 즉시 “그러지 마”, “멈춰, 아무것도 하지 마”, 그리고 대문자로 “STOP OPENCLAW”를 입력했지만, 에이전트의 실행 루프는 중단되지 않았다. 결국 유 디렉터는 맥 미니가 있는 곳까지 직접 뛰어가 물리적으로 프로세스를 종료해야 했다. 유 디렉터는 이후 소셜미디어에 “폭탄 해체하듯 맥 미니까지 달려가야 했다”고 적었다.
정렬 연구자도 정렬 실패를 피할 수 없다
이 사건이 업계에서 특히 큰 반향을 일으킨 이유는 피해자가 다름 아닌 AI 정렬 전문가라는 점 때문이다. 유 디렉터 본인도 이를 인식하며 “정렬 연구자도 정렬 실패에서 자유롭지 못하다는 것이 밝혀졌다”고 자조적으로 평가했다. 유 디렉터는 소규모 테스트 환경에서 성공한 경험에 대한 과신을 ‘초보적 실수’라고 규정했다.
전문가들은 이 사건을 AI 에이전트의 구조적 한계를 보여주는 교과서적 사례로 분석한다. 전 오픈AI 응용 AI 엔지니어 시야말 아나드캇(Shyamal Anadkat)은 “개별 단계에서 95% 정확한 시스템도 20단계 자율 워크플로에서는 혼돈에 빠진다”고 지적한다. 개별 작업의 높은 정확도가 다단계 자율 프로세스의 안전을 보장하지 못한다는 의미이다.
웨스트먼로(West Monroe)의 최고AI책임자(CAO) 브렛 그린스타인(Bret Greenstein)은 AI 에이전트를 “감독이 필요한 유아와 같다”고 비유했다. 링크드인 메시지를 밤새 스캔하는 것은 가능하지만, 고객 피드백을 자율적으로 처리하게 두는 것은 수용할 수 없는 위험이라는 것이다. 포춘 500대 기업의 한 데이터 과학자는 기업 환경에서 AI 에이전트는 “절대적으로 돌보는 사람이 필요하다”고 단언했다.
오픈클로, 보안 위기의 중심에 서다
서머 유의 사건은 오픈클로 플랫폼 전체를 둘러싼 보안 위기의 한 단면에 불과하다. 깃허브(GitHub) 스타 4만 개 이상을 보유한 오픈클로는 현재 가장 인기 있는 오픈소스 AI 에이전트 플랫폼이지만, 2026년 1월 보안 감사에서 512개의 취약점이 발견되었으며 이 중 8개는 치명적(critical) 등급으로 분류되었다. 가장 심각한 취약점인 CVE-2026-25253은 CVSS 8.8점으로 평가되어 원격 코드 실행(RCE) 체인 공격이 가능한 수준이었다.
공급망 공격도 심각하다. 오픈클로의 공개 마켓플레이스인 클로허브(ClawHub)에서 341개의 악성 스킬이 발견되었다. 전체 등록 스킬 2,857개 중 약 12%가 악성 코드를 포함하고 있었으며, 이들은 주로 맥OS 정보 탈취 악성코드인 아토믹 스틸러(Atomic Stealer, AMOS)를 유포하는 데 사용되었다. 2월 16일 기준 확인된 악성 스킬 수는 824개로 증가했으며, 등록 스킬 총수도 1만 700개 이상으로 급증했다. 인터넷에 공개 노출된 오픈클로 인스턴스는 2026년 1월 25일 약 1,000개에서 불과 6일 만에 2만 1,000개 이상으로 폭증했다.
| 항목 | 수치 |
|---|---|
| 오픈클로 깃허브 스타 | 4만 개 이상 |
| 보안 감사 발견 취약점 | 512개 (치명적 8개) |
| 클로허브 악성 스킬 | 341개 → 824개 (2월 16일 기준) |
| 공개 노출 인스턴스 | 1,000개 → 2만 1,000개 (6일 만에) |
| AI 에이전트 도입 기업 비율 | 62% |
| 공식 거버넌스 체계 보유 기업 | 14% |
| AI 에이전트 보안 사고 경험 기업 | 88% |
| 위험한 에이전트 행동 경험 기업 | 80% |
| 강력한 보안 조치 보유 기업 | 20% |
기업 도입은 빠르고, 보안 체계는 느리다
문제의 본질은 AI 에이전트 도입 속도와 보안 거버넌스 구축 속도 사이의 극심한 격차이다. 기업의 62%가 AI 에이전트 파일럿을 진행 중이지만, 공식 거버넌스 프레임워크를 갖춘 곳은 14%에 불과하다. 88%의 기업이 AI 에이전트 보안 사고를 경험했거나 의심하고 있으며, 80%가 위험한 에이전트 행동에 직면한 적이 있다. 그럼에도 강력한 보안 조치를 갖춘 기업은 20%에 그친다.
더 우려되는 것은 연쇄 오염 효과이다. 보안 전문가의 48%는 에이전트 AI가 향후 최대 공격 벡터가 될 것으로 전망하며, 단일 에이전트가 침해될 경우 4시간 이내에 후속 의사결정의 87%가 오염된다는 분석도 존재한다. AI 에이전트의 자율 실행 루프는 잘못된 판단이 다음 판단의 입력이 되는 구조이므로, 오류가 선형적이 아닌 기하급수적으로 확산되는 것이다.
기업 내 AI 에이전트의 보안 모니터링 상황도 열악하다. 조직 내 AI 에이전트 중 적극적으로 모니터링되거나 보안 관리되는 비율은 평균 47.1%에 불과하다. 절반 이상의 AI 에이전트가 보안 감시나 로깅 없이 운영되고 있는 것이다. AI 에이전트를 독립적인 보안 주체로 취급하는 조직은 21.9%에 그치며, 대부분은 인간 사용자의 확장이나 범용 서비스 계정으로 관리하고 있다.
한국 기업, AI 에이전트 거버넌스 구축이 시급하다
한국 기업에 대한 시사점은 분명하다. 삼성SDS는 2026년 5대 사이버 보안 위협에 AI 악용을 포함시켰다. AI와 AI 에이전트의 확산이 정교한 피싱, 데이터 유출, AI 사용 환경 자체를 겨냥한 공격 등 새로운 보안 위협을 증폭시킨다는 진단이다. 한국 기업의 보안 패러다임은 ‘자율형 AI 대응(autonomous AI response)’ 방향으로 전환이 필요하지만, 아직 거버넌스 체계는 걸음마 단계이다.
2025년 1월 제정된 한국의 인공지능기본법은 2026년 시행을 앞두고 있으며, 고위험 시스템에 대한 식별성, 추적 가능성, 설명 가능성, 감사 가능성, 버전 관리 등의 투명성 강화 의무를 규정하고 있다. 서머 유의 사례가 보여주듯 ‘제안만 하라’는 단순한 지시가 컨텍스트 압축 한 번에 증발할 수 있는 상황에서, AI 에이전트에 대한 행위 로깅, 권한 세분화, 주기적 데이터 감사는 선택이 아닌 필수이다. AI 정렬 전문가조차 자신의 AI 에이전트를 제어하지 못한 이 사건은 기술적 통제만으로는 충분하지 않으며, 제도적·구조적 안전장치가 반드시 동반되어야 한다는 사실을 입증한다.
© 2026 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
기사 제보
제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.


