오픈AI, API에 음성 지능 3종 모델 출시... 실시간 추론·번역·전사

오픈AI가 API에 음성 지능(Voice Intelligence) 기능을 대폭 강화한 세 가지 새로운 오디오 모델을 출시했다. GPT-5급 추론이 가능한 실시간 음성 모델, 70개 이상 언어를 실시간 번역하는 모델, 그리고 말하는 동시에 전사하는 스트리밍 STT 모델이다.

오픈AI가 5월 7일(현지시간) 개발자 API에 새로운 클래스의 음성 앱을 가능하게 하는 세 가지 오디오 모델을 도입했다. 첫 번째는 GPT-리얼타임-2(GPT-Realtime-2)로, GPT-5급 추론 능력을 갖춘 오픈AI 최초의 음성 모델이다. 복잡한 요청을 처리하고 대화를 자연스럽게 이어갈 수 있으며, 기존 음성 모델과 달리 다단계 사고가 가능하다.

두 번째는 GPT-리얼타임-트랜슬레이트(GPT-Realtime-Translate)이다. 70개 이상의 입력 언어를 13개 출력 언어로 실시간 번역하는 모델로, 화자의 말 속도에 맞춰 번역이 진행된다. 통역사 없이도 실시간 다국어 소통이 가능해지는 것이다.

세 번째는 GPT-리얼타임-위스퍼(GPT-Realtime-Whisper)로, 스트리밍 음성-텍스트 변환(STT) 모델이다. 화자가 말하는 동시에 실시간으로 전사가 이루어진다. 기존 위스퍼 모델이 녹음 완료 후 전사하는 방식이었다면, 이번 모델은 발화와 동시에 텍스트를 생성한다.

모델	기능	핵심 특징
GPT-Realtime-2	실시간 음성 대화	GPT-5급 추론, 다단계 사고
GPT-Realtime-Translate	실시간 번역	70+ 입력 → 13 출력 언어
GPT-Realtime-Whisper	스트리밍 전사	발화 동시 텍스트 생성

이 세 모델의 결합이 만들어내는 가능성은 광범위하다. 고객 서비스 자동화 시스템에서는 고객의 말을 실시간으로 전사하면서 동시에 추론을 통해 답변을 생성할 수 있다. 교육 플랫폼에서는 다국어 실시간 강의가 가능해지고, 콘텐츠 크리에이터는 음성 기반 워크플로를 구축할 수 있다. 오픈AI는 이 기능이 “고객 서비스 시스템, 교육 기술 플랫폼, 크리에이터 도구를 포함한 다양한 분야”에 적용될 수 있다고 밝혔다.

한국어가 13개 출력 언어에 포함되는지는 아직 확인되지 않았지만, 70개 이상 입력 언어에는 포함될 가능성이 높다. 국내 고객센터·의료·법률 분야에서 실시간 음성 AI 도입이 가속될 수 있는 계기이다.

기사 제보

제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.

About

오픈AI, API에 음성 지능 3종 모델 출시… 실시간 추론·번역·전사

xAI-앤트로픽 딜에 냉소적인 이유… 스페이스X IPO를 위한 쇼인가

클라우드플레어, AI가 1,100개 직무를 불필요하게 만들었다… 매출은 역대 최고

우버, ‘라이드 이상’을 꿈꿔왔다… 이제 서둘러야 할 이유가 생겼다

앤트로픽 “클로드의 협박 행동은 ‘사악한 AI’ 묘사 탓”… 최대 96% 발생률에서 0%로

구글, 월 9.99달러 AI 헬스 코치 5월 19일 출시

앤트로픽 미토스, 파이어폭스에서 271개 보안 버그 발견… 모질라의 사이버보안 패러다임이 바뀌다