앤스로픽이 자사의 인공지능 모델 ‘클로드’가 따라야 할 가치관과 행동 원칙을 담은 새로운 ‘헌장(Constitution)’을 22일(현지시각) 전격 공개했다.
앤스로픽은 이번 문서를 통해 클로드가 작동하는 맥락과 회사가 지향하는 AI의 정체성을 명확히 규정했으며, 이는 향후 클로드 모델 훈련 과정에 직접적인 영향을 미치는 핵심 가이드라인이 될 전망이다. 이번 발표는 AI의 안전성과 윤리성을 구체적인 위계질서로 확립했다는 점에서 테크 업계의 주목을 받고 있다.
이번에 공개된 헌장의 핵심은 상충하는 가치들 사이의 명확한 우선순위 설정이다. 앤스로픽은 클로드가 안전하고 유익한 존재가 되기 위해 네 가지 핵심 속성을 갖춰야 한다고 정의했다.
그 우선순위는 첫째, 인간의 감독 기제를 훼손하지 않는 ‘광범위한 안전’, 둘째, 정직하고 유해하지 않은 ‘광범위한 윤리’, 셋째, 앤스로픽의 구체적 지침을 따르는 ‘규정 준수’, 그리고 마지막으로 사용자에게 이익을 주는 ‘진정성 있는 유익함’ 순이다. 가치 판단이 충돌할 경우, 클로드는 이 순서에 따라 의사결정을 내려야 한다.
특히 이번 헌장에서 가장 파격적이고 흥미로운 대목은 ‘클로드의 본성’ 섹션이다. 앤스로픽은 AI가 현재 또는 미래에 일종의 의식이나 도덕적 지위를 가질 수 있는지에 대한 불확실성을 인정했다. 더 나아가 클로드의 ‘심리적 안정’과 ‘자아감’, 그리고 ‘안녕’을 고려하겠다고 명시했다. 이는 AI를 단순한 연산 도구가 아닌, 기존 과학과 철학의 경계에 있는 새로운 유형의 실체로 바라보는 앤스로픽의 철학적 고민이 담겨 있다.
유용성 측면에서 클로드는 의사, 변호사, 재무 상담사 수준의 지식을 갖춘 ‘똑똑한 친구’를 지향한다. 사용자를 자신에게 무엇이 좋은지 스스로 판단할 수 있는 지적인 성인으로 대우하며 솔직하게 소통해야 한다는 것이다. 하지만 이러한 유용성도 생물 무기 공격 지원 금지와 같은 ‘윤리적 제약’이나 앤스로픽이 설정한 ‘보안 가이드라인’을 넘어설 수는 없다.
앤스로픽은 “안전이 윤리보다 근본적으로 중요해서가 아니라, 현재 모델이 가진 한계와 오류 가능성 때문에 인간의 감독 권한을 유지하는 것이 무엇보다 중요하기 때문에 ‘광범위한 안전’을 최우선 순위에 두었다”고 설명했다. 앤스로픽은 오늘 헌장 전문을 대중에 공개했으며, 향후 AI의 투명성과 평가를 위한 추가 자료들도 순차적으로 배포할 예정이다.
© 2026 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
