오픈AI가 API에 음성 지능(Voice Intelligence) 기능을 대폭 강화한 세 가지 새로운 오디오 모델을 출시했다. GPT-5급 추론이 가능한 실시간 음성 모델, 70개 이상 언어를 실시간 번역하는 모델, 그리고 말하는 동시에 전사하는 스트리밍 STT 모델이다.
오픈AI가 5월 7일(현지시간) 개발자 API에 새로운 클래스의 음성 앱을 가능하게 하는 세 가지 오디오 모델을 도입했다. 첫 번째는 GPT-리얼타임-2(GPT-Realtime-2)로, GPT-5급 추론 능력을 갖춘 오픈AI 최초의 음성 모델이다. 복잡한 요청을 처리하고 대화를 자연스럽게 이어갈 수 있으며, 기존 음성 모델과 달리 다단계 사고가 가능하다.
두 번째는 GPT-리얼타임-트랜슬레이트(GPT-Realtime-Translate)이다. 70개 이상의 입력 언어를 13개 출력 언어로 실시간 번역하는 모델로, 화자의 말 속도에 맞춰 번역이 진행된다. 통역사 없이도 실시간 다국어 소통이 가능해지는 것이다.
세 번째는 GPT-리얼타임-위스퍼(GPT-Realtime-Whisper)로, 스트리밍 음성-텍스트 변환(STT) 모델이다. 화자가 말하는 동시에 실시간으로 전사가 이루어진다. 기존 위스퍼 모델이 녹음 완료 후 전사하는 방식이었다면, 이번 모델은 발화와 동시에 텍스트를 생성한다.
| 모델 | 기능 | 핵심 특징 |
|---|---|---|
| GPT-Realtime-2 | 실시간 음성 대화 | GPT-5급 추론, 다단계 사고 |
| GPT-Realtime-Translate | 실시간 번역 | 70+ 입력 → 13 출력 언어 |
| GPT-Realtime-Whisper | 스트리밍 전사 | 발화 동시 텍스트 생성 |
이 세 모델의 결합이 만들어내는 가능성은 광범위하다. 고객 서비스 자동화 시스템에서는 고객의 말을 실시간으로 전사하면서 동시에 추론을 통해 답변을 생성할 수 있다. 교육 플랫폼에서는 다국어 실시간 강의가 가능해지고, 콘텐츠 크리에이터는 음성 기반 워크플로를 구축할 수 있다. 오픈AI는 이 기능이 “고객 서비스 시스템, 교육 기술 플랫폼, 크리에이터 도구를 포함한 다양한 분야”에 적용될 수 있다고 밝혔다.
한국어가 13개 출력 언어에 포함되는지는 아직 확인되지 않았지만, 70개 이상 입력 언어에는 포함될 가능성이 높다. 국내 고객센터·의료·법률 분야에서 실시간 음성 AI 도입이 가속될 수 있는 계기이다.
© 2026 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
기사 제보
제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.


