구글 젬마 4 12B 공개, 16GB 노트북에서 음성·영상·코드 처리하는 오픈 AI 모델

2026년 6월 3일, 구글 딥마인드(Google DeepMind)가 젬마(Gemma) 4 12B를 공식 출시했다. 120억 개의 파라미터를 보유한 이 모델은 젬마 시리즈 최초로 중형(mid-sized) 모델에 네이티브 오디오 처리 기능을 탑재한 것이 특징이다. 모델 용량은 약 18GB 미만으로, 16GB RAM 또는 VRAM을 갖춘 일반 노트북에서 로컬 실행이 가능하다. 텍스트, 이미지, 오디오, 영상을 단일 모델로 처리할 수 있어 기업과 개발자에게 실질적인 로컬 AI 활용 경로를 열어준다.

인코더 없는 ‘유니파이드’ 아키텍처의 혁신

젬마 4 12B의 가장 핵심적인 기술적 혁신은 인코더 프리(encoder-free) ‘유니파이드(Unified)’ 아키텍처이다. 기존 멀티모달 AI 모델은 비전 인코더, 오디오 인코더 등 별도의 보조 모듈을 거쳐 데이터를 변환한 뒤 언어 모델에 입력하는 구조를 채택했다. 그러나 젬마 4 12B는 원시(raw) 오디오 및 시각 패치를 직접 LLM 백본에 투입한다. 이 설계는 처리 시간, 메모리 소비, 지연 시간을 동시에 줄이는 효과가 있다. 구글은 5분짜리 기조연설 영상(313프레임 + 오디오)을 프레임과 오디오를 순차적으로 분석하는 데모를 통해 이 아키텍처의 실용성을 입증했다.

성능: 26B 모델의 절반 메모리로 근접한 벤치마크

항목	젬마 4 12B	젬마 4 26B (MoE )	젬마 3 27B
파라미터	120억	260억	270억
메모리 사용	~16GB	~32GB	~32GB
네이티브 오디오	지원	지원	미지원
아키텍처	유니파이드	MoE	인코더 기반
라이선스	아파치 2.0	아파치 2.0	아파치 2.0

젬마 4 12B는 GPQA 다이아몬드, MMLU 프로, DocVQA 등 주요 벤치마크에서 2배 크기인 젬마 4 26B에 근접한 성능을 기록했다. 이전 세대인 젬마 3 27B를 능가하는 결과도 확인되었다. 메모리 사용량은 26B 모델의 약 절반 수준으로, 동일한 하드웨어에서 더 효율적인 추론이 가능하다.

젬마 4 라인업: 엣지부터 서버까지

구글은 젬마 4를 용도별로 3단계 라인업으로 구성했다. 가장 소형인 E4B는 엣지(Edge) 디바이스와 모바일 환경을 타겟으로 한다. 이번에 출시된 12B 유니파이드 모델은 노트북과 워크스테이션에서의 로컬 AI 에이전트 워크플로를 겨냥한다. 최상위 26B MoE(Mixture of Experts ) 모델은 대규모 서버 환경에 적합하다. 256K 토큰 컨텍스트 윈도우를 지원해 긴 재무 보고서, 대규모 코드 저장소, 1시간 분량의 회의록도 처리할 수 있다.

지원 프레임워크와 즉시 활용 가능한 생태계

젬마 4 12B는 출시 첫날부터 허깅페이스 (Hugging Face)와 캐글(Kaggle)에서 모델 가중치를 다운로드할 수 있다. 허깅페이스 트랜스포머(Transformers), vLLM, SGLang, MLX, llama.cpp, LiteRT-LM, 올라마(Ollama), LM 스튜디오(LM Studio), 언슬로스(Unsloth) 등 주요 추론·파인튜닝 프레임워크를 지원한다. 아파치 2.0 라이선스 하에 무료 배포되어 상용 활용에도 제한이 없다. 개발자와 기업은 수정, 배포, 상업화를 자유롭게 할 수 있어, 클라우드 API 의존도를 줄이고 데이터 프라이버시를 확보하려는 기업에게 매력적인 선택지가 된다.

한국 개발자에게 의미하는 것

젬마 4 12B의 출시는 한국 AI 생태계에도 즉각적인 영향을 미칠 전망이다. 16GB RAM 노트북에서 음성 인식, 화자 분리(speaker diarization), 코드 생성, 이미지 이해, 영상 분석이 모두 가능하다는 것은 스타트업과 개인 개발자도 멀티모달 AI 서비스를 클라우드 비용 없이 프로토타이핑할 수 있음을 의미한다. 특히 한국어 음성 데이터에 대한 파인튜닝이 아파치 2.0 라이선스 하에 자유롭게 가능해, 국내 AI 스타트업의 로컬 모델 활용 전략에 새로운 가능성을 열어준다. 다만 한국어 성능은 별도 평가가 필요하며, 커뮤니티의 벤치마크 결과가 주목된다.

About

구글 젬마 4 12B 공개, 16GB 노트북에서 음성·영상·코드 처리하는 오픈 AI 모델

스피노사우루스, 최애 공룡 1위 등극… ‘공룡덕후박람회’ 뜨거운 현장

봇 트래픽, 인터넷 역사상 최초로 인간 추월… 57.5% vs 42.5%

노션, 앤스로픽 장애 12시간 만에 서비스 복구

About

뉴스레터 구독하기

구글 젬마 4 12B 공개, 16GB 노트북에서 음성·영상·코드 처리하는 오픈 AI 모델

인코더 없는 ‘유니파이드’ 아키텍처의 혁신

성능: 26B 모델의 절반 메모리로 근접한 벤치마크

젬마 4 라인업: 엣지부터 서버까지

지원 프레임워크와 즉시 활용 가능한 생태계

한국 개발자에게 의미하는 것

관련 기사

스피노사우루스, 최애 공룡 1위 등극… ‘공룡덕후박람회’ 뜨거운 현장

봇 트래픽, 인터넷 역사상 최초로 인간 추월… 57.5% vs 42.5%

노션, 앤스로픽 장애 12시간 만에 서비스 복구