구글 제미나이 옴니, 모든 입력으로 영상 생성하는 시대 연다

구글 , I/O 2026에서 멀티모달 모델 ‘제미나이 옴니(Gemini Omni)’ 패밀리 공개
텍스트·이미지·오디오·영상 입력으로 약 10초 분량의 오디오 동기화 영상 클립 생성
제미나이 앱, 유튜브 쇼츠, AI 크리에이티브 스튜디오 ‘플로(Flow)’에 순차 출시

구글(Google)이 5월 19일 구글 I/O 2026에서 새로운 멀티모달 AI 모델 패밀리 ‘제미나이 옴니(Gemini Omni)’를 공개했다. 제미나이 옴니의 핵심은 “모든 입력에서 무엇이든 만들어낸다(Create Anything from Any Input)”는 것이다. 텍스트, 이미지, 오디오, 영상을 입력하면 약 10초 분량의 영상 클립을 오디오와 함께 동기화해 생성한다. 기존 AI 영상 생성 도구들이 텍스트-투-비디오(Text-to-Video)에 머물렀다면, 제미나이 옴니는 모든 형식의 입력을 통합적으로 이해하고 일관된 출력을 만드는 ‘진정한 멀티모달 생성’을 목표로 한다.

단순 합성이 아닌 ‘추론 기반 멀티모달 생성’

구글 딥마인드(DeepMind) 연구 부사장 코레이 카부쿠오울루(Koray Kavukcuoglu)는 “제미나이 옴니는 입력을 단순히 이어 붙이는 것이 아니라, 모든 입력을 교차 추론(cross-modal reasoning)해 일관된 출력을 만든다”고 강조했다. 예를 들어 사용자가 풍경 사진과 새소리 오디오, 그리고 “여기에 안개를 추가해줘”라는 텍스트를 함께 입력하면, 모델은 세 가지 입력의 맥락을 통합적으로 이해해 안개 낀 풍경에 새소리가 동기화된 영상을 생성한다. 카부쿠오울루는 “이것은 물리 법칙에 대한 이해와 제미나이의 역사, 과학, 문화 지식을 결합한 결과”라고 설명했다.

대화형 편집: 프롬프트 다시 쓸 필요 없다

제미나이 옴니의 또 다른 차별점은 대화형 편집 워크플로다. 사용자가 먼저 기본 장면을 생성한 뒤, 카메라 각도, 스타일, 오브젝트 등을 대화로 수정할 수 있다. 기존 AI 영상 생성 도구에서는 결과물이 마음에 들지 않으면 프롬프트 전체를 다시 작성해야 했다. 제미나이 옴니에서는 “카메라를 왼쪽으로 30도 돌려줘” 또는 “배경을 일몰로 바꿔줘” 같은 자연어 지시만으로 기존 영상을 점진적으로 수정할 수 있다. 구글은 내부 테스트에서 이 기능이 영상 제작 반복 시간을 평균 74% 단축했다고 밝혔다.

첫 모델 ‘옴니 플래시’, 프로 버전도 예고

먼저 출시되는 모델은 ‘제미나이 옴니 플래시(Gemini Omni Flash)’로, 빠른 응답 속도에 최적화됐다. 약 10초 분량의 영상 클립을 수 초 내에 생성할 수 있으며, 일반 사용자와 크리에이터를 대상으로 한다. 구글은 이어서 전문가용 ‘옴니 프로(Omni Pro)’ 모델도 출시할 예정이다. 옴니 프로는 더 긴 영상, 더 높은 해상도, 세밀한 제어 기능을 제공할 것으로 알려졌다. 구글 I/O 기조연설에서 순다르 피차이(Sundar Pichai) CEO는 “제미나이 옴니는 구글 AI의 다음 장(next chapter)”이라며 “창작의 민주화를 한 단계 더 끌어올리겠다”고 선언했다.

유튜브 쇼츠·플로에 통합, 크리에이터 생태계 확장

제미나이 옴니는 제미나이 앱, 유튜브 쇼츠(YouTube Shorts), AI 크리에이티브 스튜디오 ‘플로(Flow)’에 순차적으로 통합된다. 유튜브 쇼츠는 월간 활성 사용자(MAU) 약 20억 명을 보유한 세계 최대 숏폼 영상 플랫폼이다. 플로는 구글이 새롭게 선보이는 AI 기반 영상 제작 스튜디오로, 제미나이 옴니를 핵심 엔진으로 탑재한다. 크리에이터는 플로에서 스토리보드 구성부터 영상 생성, 편집, 오디오 추가까지 원스톱으로 처리할 수 있다. 구글은 “플로를 통해 전문 장비나 편집 기술 없이도 누구나 고품질 영상 콘텐츠를 만들 수 있게 된다”고 설명했다.

AI 영상 생성 시장, 구글·오픈AI·메타 삼파전

제미나이 옴니의 등장으로 AI 영상 생성 시장은 구글, 오픈AI (소라, Sora), 메타 (무비젠, Movie Gen) 간 본격적인 3파전에 돌입한다. 오픈AI의 소라는 2025년 출시 이후 텍스트-투-비디오 분야를 주도해왔으며, 메타의 무비젠은 오픈소스 전략으로 개발자 생태계를 확보하고 있다. 시장조사기관 그랜드뷰리서치(Grand View Research)에 따르면 AI 영상 생성 시장은 2025년 약 5억 달러(약 7,250억 원)에서 2030년 약 42억 달러(약 6조 900억 원)로 성장할 전망이다. 한국 콘텐츠 업계에서는 “제미나이 옴니의 멀티모달 통합 능력이 K-콘텐츠 제작 비용을 획기적으로 낮출 수 있다”는 기대와 함께, 저작권·딥페이크 등 부작용에 대한 우려도 동시에 제기되고 있다.

구분	내용
발표 행사	구글 I/O 2026 (5월 19일)
모델명	제미나이 옴니(Gemini Omni)
첫 출시 모델	제미나이 옴니 플래시(Omni Flash)
입력 형식	텍스트, 이미지, 오디오, 영상
출력	약 10초 영상 클립 + 동기화 오디오
적용 서비스	제미나이 앱, 유튜브 쇼츠, 플로(Flow)
예정 모델	옴니 프로(Omni Pro) — 전문가용
AI 영상 시장 전망	2030년 약 42억 달러(약 6조 900억 원)

About

구글 제미나이 옴니, 모든 입력으로 영상 생성하는 시대 연다

오픈AI, “챗은 죽었다”… 챗GPT 슈퍼앱으로 대전환

‘토큰포칼립스’ 시대 도래… AI 과금 폭탄의 서막

구글, 스페이스X에 월 9.2억 달러 컴퓨팅 비용 지불

About

뉴스레터 구독하기

구글 제미나이 옴니, 모든 입력으로 영상 생성하는 시대 연다

단순 합성이 아닌 ‘추론 기반 멀티모달 생성’

대화형 편집: 프롬프트 다시 쓸 필요 없다

첫 모델 ‘옴니 플래시’, 프로 버전도 예고

유튜브 쇼츠·플로에 통합, 크리에이터 생태계 확장

AI 영상 생성 시장, 구글·오픈AI·메타 삼파전

관련 기사

오픈AI, “챗은 죽었다”… 챗GPT 슈퍼앱으로 대전환

‘토큰포칼립스’ 시대 도래… AI 과금 폭탄의 서막

구글, 스페이스X에 월 9.2억 달러 컴퓨팅 비용 지불