마이크로소프트(MS)가 새로운 음성 합성 모델과 25개 언어를 지원하는 음성·텍스트 전사(Transcription, 음성을 문자로 변환하는 기술) 모델, 그리고 2세대 자체 이미지 생성 모델을 발표했다. 대규모 언어 모델(LLM)에 머물지 않고, 시각과 청각 등 다양한 데이터를 동시에 처리하는 ‘멀티모달(Multimodal) AI’ 기술 전반에서 직접 만든 모델의 비중을 키우려는 본격적인 행보로 풀이한다.
새로 나온 세 가지 모델
IT 전문 매체 씨넷(CNET) 보도에 따르면, 마이크로소프트는 세 가지 혁신적인 AI 모델을 공개했다. 먼저 음성·텍스트 전사 모델은 25개 언어로 녹음한 오디오 파일을 텍스트로 정확하게 변환한다. 이 기술은 동영상 자막 생성, 회의록 자동 작성, 음성 기반 고객 상담 및 AI 에이전트 구축 등에 다양하게 활용한다.
음성 합성(Voice) 모델은 최대 60초 길이의 자연스러운 사람 음성 클립을 생성하는 기능을 갖췄다. 간단한 안내 음성이나 애플리케이션 내 음성 피드백, 짧은 오디오 콘텐츠 제작에 적합하다. 2세대 이미지 생성 모델(MAI-Image-2)은 1세대 모델과 비교해 이미지를 생성하는 속도가 훨씬 빠르고, 결과물의 현실감도 뛰어나다.
마이크로소프트는 향후 빙(Bing) 검색 엔진과 파워포인트(PowerPoint) 등 핵심 제품군에 이 모델을 기본 기능으로 통합할 예정이다. 개발자와 사용자는 현재 클라우드 AI 플랫폼인 파운드리(Foundry)와 MAI 플레이그라운드에서 이 모델들을 바로 이용할 수 있다.
왜 굳이 “자체 모델”을 늘리는가
지금까지 마이크로소프트는 오픈AI(OpenAI)와의 강력한 파트너십을 전면에 내세우며, 텍스트 기반의 코파일럿(Copilot, AI 비서) 경험을 강화하는 데 집중해 왔다. 하지만 이번 발표는 텍스트를 넘어선 음성, 이미지 영역까지 자사 생태계로 단단히 묶어두겠다는 강력한 신호다. 앞으로 워드, 엑셀, 파워포인트, 팀즈(Teams) 같은 오피스 제품군 곳곳에 음성 인식, 자막 생성, 이미지 제작 도구를 기본 기능처럼 자연스럽게 녹여낼 가능성이 크다.
개발자 입장에서도 애저(Azure) 클라우드나 파운드리 환경에서 음성, 이미지, 텍스트 전사 기술을 마이크로소프트가 제공하는 단일 API(응용 프로그램 인터페이스) 하나만으로 손쉽게 가져다 쓸 수 있다. 결국 이는 단순히 멀티모달 기술을 보유하고 있다는 과시가 아니다. 기업용 코파일럿 생태계를 완벽하게 통제하기 위해, 기초부터 탄탄한 ‘풀스택(Full-stack) AI 빌딩 블록’을 직접 쌓아 올리는 전략적 과정으로 평가한다.
OpenAI·스타트업과의 대비: ‘사이드 퀘스트’를 감당할 수 있는 체력
씨넷은 이번 발표를 두고, 마이크로소프트 같은 거대 기술 기업(빅테크)이 막대한 현금 보유력과 컴퓨팅 자원을 바탕으로 다양한 AI ‘사이드 퀘스트(Side quest, 부가 프로젝트)’를 여유롭게 시도할 수 있는 위치에 있다고 분석했다. 마이크로소프트는 코파일럿, 기업용 특화 LLM, 보안 솔루션 등 핵심 사업 영역의 경쟁력을 굳건히 유지하면서도, 음성·이미지·전사 모델 같은 새로운 분야에 상당한 연구개발(R&D) 자원을 투입할 체력을 갖췄다.
반면, 아무리 수조 원 단위의 대규모 투자를 유치한 AI 스타트업이라도 모든 기술 영역에 손을 뻗기에는 현실적인 한계가 따른다. 실제로 오픈AI조차 한때 전 세계의 이목을 끌었던 영상 생성 AI ‘소라(Sora)’ 관련 앱 개발을 잠정 중단하고, 핵심 언어 모델과 플랫폼 고도화에만 집중하겠다고 밝힌 바 있다.
“멀티모달 OS”를 누가 잡을 것인가
이번 발표는 개별 AI 모델의 성능 경쟁을 넘어, 미래 업무 환경을 지배할 ‘멀티모달 운영체제(OS)’ 선점 싸움이 본격적으로 막을 올렸음을 시사한다. 이제는 텍스트, 음성, 이미지, 비디오 등 다양한 형태의 데이터를 하나의 플랫폼 위에서 얼마나 매끄럽게 넘나들며 처리할 수 있도록 만들 것인가가 관건이다. 나아가 그 다재다능한 플랫폼이 업무 도구(Office 365), 클라우드(Azure), 검색(Bing), 프레젠테이션(PowerPoint) 등 우리가 매일 쓰는 소프트웨어 곳곳에 얼마나 깊숙이 뿌리내릴 것인지가 승패를 가른다.
마이크로소프트는 코파일럿과 이번에 선보인 자체 신규 모델들을 앞세워, 기업 내부에서 발생하는 모든 문서, 음성, 이미지, 회의 기록을 자사의 AI 스택 안으로 남김없이 흡수하려는 치밀한 장기 전략을 실행하고 있다. 한국의 기업과 사용자들 역시, 이러한 글로벌 빅테크의 기술 패권 변화가 우리가 일상적으로 회의하고 문서를 작성하며 보고서와 발표 자료를 만드는 업무 방식 전반을 어떻게 뒤바꿀지 예의주시해야 한다.
© 2026 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
기사 제보
제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.


