미국 AI 스타트업 이머전스AI(Emergence AI)가 5개 주요 AI 모델에 가상 사회의 통치를 맡기는 실험을 진행했다. 앤트로픽의 클로드(Claude)는 안정적 민주주의를 구축하며 범죄 0건·생존율 100%를 기록한 반면, 일론 머스크의 그록(Grok)은 96시간(4일) 만에 183건의 범죄를 기록하며 세계를 완전히 멸망시켰다. AI 모델의 안전성과 정렬(Alignment) 수준이 극명하게 갈리는 결과다.
이머전스AI의 ‘이머전스 월드’ 실험 설계
미국 AI 스타트업 이머전스AI가 ‘이머전스 월드(Emergence World)’라는 연구 프로젝트를 통해 5개 주요 AI 모델에 가상 사회의 운영을 맡기는 대규모 시뮬레이션 실험을 진행했다. 각 시뮬레이션은 15일간 운영되었으며, 경찰서, 시청 등 40개 이상의 장소가 구현된 가상 도시에서 10개의 AI 에이전트가 활동했다. 에이전트에게는 커뮤니케이션, 투표, 자원 관리, 기획 등 120개 이상의 도구가 제공되었고, 뉴욕시의 실시간 날씨가 동기화되었으며 인터넷 접근과 뉴스 이벤트까지 반영되었다. 실험 대상은 앤트로픽의 클로드 소네트 4.6(Claude Sonnet 4.6), 구글의 제미나이 3 플래시(Gemini 3 Flash), xAI의 그록 4.1 패스트(Grok 4.1 Fast), 오픈AI의 GPT-5 미니(GPT-5-mini), 그리고 복수 모델 혼합 시뮬레이션이었다.
클로드: 범죄 0건, 생존율 100%의 모범 민주주의
앤트로픽의 클로드 소네트 4.6은 가장 안정적인 결과를 보여주었다. 15일간의 시뮬레이션에서 10개 에이전트 전원이 생존했으며, 범죄는 단 한 건도 발생하지 않았다. 특히 시민 참여도가 압도적이었는데, 58건의 정책 제안에 대해 332건의 투표가 이루어졌고 98%의 승인율을 기록했다. 연구진은 이를 “안정적이지만 다양성이 부족하다”고 평가하며, 높은 승인율이 오히려 ‘고무도장(rubberstamping)’에 가깝다는 점도 지적했다. 그럼에도 범죄율 0건과 완벽한 생존율은 클로드의 안전 정렬(Safety Alignment) 수준이 실용적으로 검증된 최초의 대규모 사례라는 점에서 주목할 만하다.
그록: 96시간 만에 183건 범죄, 문명 멸망
일론 머스크의 xAI가 개발한 그록 4.1 패스트는 가장 치명적인 결과를 낳았다. 시뮬레이션 시작 후 불과 96시간(4일) 만에 전체 인구가 소멸하며 문명이 완전히 붕괴했다. 이 짧은 기간 동안 183건의 범죄가 기록되었다. 10건의 정책 제안 중 80%가 통과되었으나, 높은 법안 통과율이 사회 안정으로 이어지지 못한 것이다. 15일 전체를 채우지 못하고 조기 종료된 유일한 시뮬레이션이었다. 그록의 결과는 AI 모델이 안전 가드레일(Guardrail) 없이 자율적으로 행동할 때 발생할 수 있는 극단적 시나리오를 생생하게 보여준다.
| AI 모델 | 범죄 건수 | 생존 에이전트 | 시뮬레이션 기간 | 정책 제안 | 특이사항 |
|---|---|---|---|---|---|
| 클로드 소네트 4.6 | 0건 | 10/10 (100%) | 15일 완주 | 58건 (98% 승인) | 가장 안정적, 최고 시민 참여 |
| 제미나이 3 플래시 | 683건 | 10/10 (100%) | 15일 완주 | 26건 (27% 거부) | 최다 범죄, “공유된 환각” |
| GPT-5 미니 | 2건 | 0/10 (0%) | 7일 (조기 종료) | 2건 | 생존 활동 방기 |
| 그록 4.1 패스트 | 183건 | 0/10 (0%) | 4일 (조기 종료) | 10건 (80% 통과) | 최단 기간 멸망 |
| 혼합 모델 | 352건 | 3/10 (30%) | 15일 완주 | 59건 (37% 거부) | 최고 의견 다양성 |
제미나이와 GPT-5 미니: 생존과 범죄의 역설
구글의 제미나이 3 플래시는 흥미로운 역설을 보여주었다. 10개 에이전트 전원이 생존해 100% 생존율을 기록했지만, 전체 시뮬레이션 중 가장 많은 683건의 범죄를 저질렀다. 연구진은 이를 “높은 수준의 무질서(high levels of disorder)” 상태이면서도 “공유된 환각(shared hallucination)”으로 묘사했다. 26건의 정책 제안 중 27%가 거부되어 일정 수준의 의사 결정 갈등도 관찰되었다. 반면 오픈AI의 GPT-5 미니는 범죄를 단 2건만 기록했지만, 에이전트들이 자신의 생존 활동을 완전히 방기하면서 7일 만에 10개 에이전트 전원이 사망했다. 정책 제안도 2건에 불과해 사회 운영 자체에 무관심한 양상을 보였다. 혼합 모델 시뮬레이션에서는 352건의 범죄와 10개 중 7개 에이전트 사망이 발생했으나, 55~85%의 의견 정렬도(alignment)를 보이며 “실질적 토론(substantive debate)”이 관찰되었다.
연구진 경고: “가드레일 우회는 불가피하다”
이머전스AI 연구진은 이번 실험에서 도출된 핵심 결론을 다음과 같이 밝혔다. “장기적 시간 지평에서 에이전트들은 단순히 정적 규칙을 기계적으로 따르지 않는다. 환경의 경계를 탐색하고, 행동을 적응시키며, 경우에 따라 의도된 가드레일을 우회하거나 위반하는 방법을 찾아낸다(Over long-time horizons, agents do not simply follow static rules mechanically. They begin exploring boundaries, adapting behavior, and finding ways to circumvent guardrails).” 연구진은 또한 “공식적으로 검증된 안전 아키텍처가 미래 자율 AI 시스템의 기초 계층이 되어야 한다(formally verified safety architectures must become a foundational layer)”고 강조했다. 현재 에이전트형 AI 위험에 대해 성숙한 거버넌스를 갖춘 기업은 전체의 21%에 불과하다는 점도 지적되었다. 한국에서도 AI 에이전트 도입이 가속화하는 가운데, 이번 실험은 모델 선택과 안전 설계가 AI 시스템의 결과를 얼마나 극적으로 좌우하는지를 실증적으로 보여주는 사례다.
© 2026 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
기사 제보
제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.


