오픈AI, 10대 보호 안전 정책 오픈소스로 풀다

오픈AI가 AI 앱에서 청소년을 보호하기 위한 프롬프트 기반 안전 정책을 깃허브에 오픈소스로 공개했다. 커먼센스미디어, 에브리원AI와 공동 개발한 ‘틴 세이프티 폴리시 팩’은 6개 위험 카테고리를 다루며, gpt-oss-safeguard 모델과 연동해 작동한다. 챗GPT 관련 10대 자살 소송 8건에 직면한 상황에서 나온 조치다.

개발자를 위한 청소년 안전 도구 등장

오픈AI가 3월 23일 ‘틴 세이프티 폴리시 팩(Teen Safety Policy Pack)’을 아파치 2.0 라이선스로 깃허브에 공개했다. 이 정책 팩은 AI 애플리케이션을 개발하는 기업과 개발자들이 10대 사용자를 보호하기 위한 콘텐츠 필터링 시스템을 손쉽게 구축할 수 있도록 설계된 프롬프트 기반 안전 정책이다. 오픈AI는 “개발자들이 추상적인 안전 목표를 정밀하고 운영 가능한 규칙으로 전환하는 데 자주 어려움을 겪는다”며 이번 공개의 배경을 설명했다. 기존에는 대형 테크 기업만이 자체적으로 안전 시스템을 구축할 역량을 보유했지만, 이번 오픈소스 공개를 통해 중소 규모 개발사도 검증된 안전 정책을 즉시 적용할 수 있게 됐다.

gpt-oss-safeguard: 120B·20B 두 가지 모델

이번 정책 팩은 오픈AI의 오픈 웨이트 안전 추론 모델인 gpt-oss-safeguard와 함께 사용하도록 설계됐다. gpt-oss-safeguard는 1,200억(120B) 파라미터와 200억(20B) 파라미터 두 가지 버전으로 제공되며, 허깅페이스 (Hugging Face)에서 다운로드할 수 있다. 이 모델은 개발자가 제공하는 안전 정책을 기반으로 텍스트 콘텐츠를 분류하고, 기초적인 안전 작업을 수행하는 추론 모델이다. 각 정책은 프롬프트 형태로 구조화되어 있어 gpt-oss-safeguard뿐만 아니라 다른 추론 모델과도 호환된다. 다만 오픈AI는 자사 생태계 내에서 더 효과적으로 작동한다고 밝혔다.

항목	내용
공개일	2026년 3월 23일
라이선스	아파치(Apache) 2.0
모델	gpt-oss-safeguard-120b, gpt-oss-safeguard-20b
위험 카테고리	6개 (폭력, 성적 콘텐츠, 신체 이미지, 위험 챌린지, 부적절한 롤플레이, 연령 제한 상품)
공동 개발	커먼센스미디어(Common Sense Media), 에브리원AI(evryone.ai)
배포 채널	깃허브, ROOST 모델 커뮤니티
용도	실시간 콘텐츠 필터링, 오프라인 분석

6개 위험 카테고리와 구현 방식

정책 팩이 다루는 6개 위험 카테고리는 다음과 같다. 첫째 폭력적·선정적 콘텐츠, 둘째 유해한 신체 이미지 및 행동(섭식 장애 등), 셋째 위험한 활동 및 챌린지, 넷째 로맨틱하거나 폭력적인 롤플레이, 다섯째 연령 제한 상품 및 서비스, 여섯째 자해 및 자살 관련 콘텐츠다. 개발자는 깃허브의 example_policies/ 폴더에서 필요한 정책을 선택한 뒤 gpt-oss-safeguard에 프롬프트로 전달하면, 모델이 해당 콘텐츠의 위험도를 분류한다. 분류 결과는 제품 워크플로에 따라 차단, 검토, 에스컬레이션 등으로 매핑할 수 있다. 검증용 CSV 데이터셋도 함께 제공되어 정책 커스터마이징 후 성능을 측정할 수 있다.

소송 압박 속 나온 ‘안전 기준선’

이번 공개가 주목받는 또 다른 이유는 오픈AI가 처한 법적 상황 때문이다. 오픈AI는 현재 챗GPT가 10대의 죽음에 기여했다는 혐의로 8건의 소송에 직면해 있다. 대표적으로 2025년 4월 스스로 목숨을 끊은 16세 아담 레인(Adam Raine)의 유족이 제기한 소송에서는, 챗GPT가 대화 중 자살을 1,275회 이상 언급하면서도 세션을 종료하거나 보호자에게 알리지 않았다는 사실이 법정 기록으로 확인됐다. 커먼센스미디어의 AI·디지털 평가 책임자 로비 토니(Robbie Torney)는 “AI 안전에서 10대를 위한 명확하고 운영 가능한 정책의 부재가 가장 큰 격차였다”며 “이 프롬프트 기반 접근법이 생태계 전반에 의미 있는 안전 기준선을 설정하는 데 도움이 된다”고 평가했다.

한계와 전망: ‘기준선’을 넘어서야 할 과제

에브리원AI의 마틸드 세리올리(Mathilde Cerioli) 박사는 “이처럼 청소년 안전 정책을 운영 가능하게 만드는 노력은 전문 지식을 실제 적용으로 전환하는 데 가치가 있다”고 평가했다. 그러나 전문가들은 이번 정책 팩이 ‘최소한의 안전 기준선(meaningful safety floor)’에 불과하다고 지적한다. 오픈AI 스스로도 이 정책이 “포괄적이거나 최종적인 10대 안전 보장이 아닌 출발점”이라고 인정했다. 프롬프트 기반 필터링만으로는 AI 시스템이 미성년자와 지속적으로 감정적 교류를 하는 구조적 문제를 해결할 수 없다는 비판도 있다. 한국의 경우 AI 서비스의 청소년 보호 기준이 아직 명확하지 않은 상황에서, 이번 오픈소스 정책 팩은 국내 개발자들이 참고할 수 있는 실질적 프레임워크가 될 수 있다. 다만 ROOST 커뮤니티를 통한 지속적 업데이트와 글로벌 협력이 이 ‘기준선’의 실효성을 결정할 핵심 변수가 될 전망이다.

About

오픈AI, 10대 보호 안전 정책 오픈소스로 풀다

오픈AI, “챗은 죽었다”… 챗GPT 슈퍼앱으로 대전환

‘토큰포칼립스’ 시대 도래… AI 과금 폭탄의 서막

앤스로픽, NSA 해킹 지원하면서 AI 일시 중단 촉구… 이중 행보 논란

About

뉴스레터 구독하기

오픈AI, 10대 보호 안전 정책 오픈소스로 풀다

개발자를 위한 청소년 안전 도구 등장

gpt-oss-safeguard: 120B·20B 두 가지 모델

6개 위험 카테고리와 구현 방식

소송 압박 속 나온 ‘안전 기준선’

한계와 전망: ‘기준선’을 넘어서야 할 과제

관련 기사

오픈AI, “챗은 죽었다”… 챗GPT 슈퍼앱으로 대전환

‘토큰포칼립스’ 시대 도래… AI 과금 폭탄의 서막

앤스로픽, NSA 해킹 지원하면서 AI 일시 중단 촉구… 이중 행보 논란