마이크로소프트(Microsoft)가 자체 개발한 텍스트-이미지 생성 모델 ‘MAI-Image-2’를 공개했다. 출시 직후 Arena.ai 리더보드에서 구글과 오픈AI에 이어 3위에 올랐으며, 100억~500억 개 파라미터 규모의 디퓨전 기반 아키텍처로 포토리얼리즘과 이미지 내 텍스트 렌더링에서 업계 최고 수준의 성능을 입증했다.
마이크로소프트가 이미지 생성 AI 시장에서 독자적인 존재감을 드러냈다. 3월 19일 공개된 MAI-Image-2는 오픈AI의 DALL-E에 의존하던 마이크로소프트가 처음으로 자사 기술만으로 글로벌 상위권에 진입한 모델이다. 무스타파 술레이만(Mustafa Suleyman)이 이끄는 AI 초지능 팀이 사진작가, 디자이너, 비주얼 스토리텔러의 피드백을 반영해 개발했으며, 2026년 1월부터 3월까지 단 3개월 만에 훈련을 완료했다. 마이크로소프트 모델 카드에 따르면 MAI-Image-2는 100억~500억 개의 비임베딩 파라미터를 탑재한 디퓨전 기반 생성 모델로, 플로우 매칭(flow-matching) 손실 함수를 활용해 노이즈 분포에서 데이터 분포로의 연속 변환을 학습하는 방식으로 작동한다.
벤치마크 성적이 말해주는 실력
MAI-Image-2는 출시 직후 Arena.ai 텍스트-이미지 리더보드에서 3위를 차지했다. 1위 구글 제미나이(Gemini) 3.1 플래시, 2위 오픈AI GPT Image 1.5에 이어 마이크로소프트가 처음으로 글로벌 톱3에 이름을 올린 것이다. 마이크로소프트가 공개한 내부 Elo 점수는 더욱 인상적이다. 전체 종합 점수 1,190점으로 전작 MAI-Image-1의 1,093점 대비 약 9% 향상됐으며, 포토리얼리스틱 및 시네마틱 이미지 부문에서는 1,201점, 인물사진(포트레이트) 부문에서도 1,201점을 기록해 전작 대비 각각 97점, 106점 높아졌다. 특히 텍스트 렌더링 점수는 1,186점으로 MAI-Image-1의 1,069점에서 117점이나 뛰어올라 가장 큰 폭의 개선을 보였다.
| 평가 항목 | MAI-Image-2 | MAI-Image-1 | 향상폭 |
|---|---|---|---|
| 포토리얼리스틱 & 시네마틱 | 1,201 ± 12 | 1,104 ± 5 | +97 |
| 제품/브랜딩/상업 디자인 | 1,191 ± 11 | 1,085 ± 5 | +106 |
| 3D 이미징 & 모델링 | 1,184 ± 22 | 1,096 ± 8 | +88 |
| 만화/애니메/판타지 | 1,186 ± 14 | 1,100 ± 5 | +86 |
| 아트 | 1,191 ± 18 | 1,104 ± 7 | +87 |
| 인물사진 | 1,201 ± 17 | 1,095 ± 6 | +106 |
| 텍스트 렌더링 | 1,186 ± 12 | 1,069 ± 5 | +117 |
| 종합 | 1,190 ± 8 | 1,093 ± 4 | +97 |
포토리얼리즘과 텍스트 렌더링, 두 마리 토끼를 잡다
MAI-Image-2의 핵심 강점은 크게 세 가지로 요약된다. 첫째, 자연스러운 광원 처리와 정확한 피부톤 재현으로 사실적 이미지 생성 능력이 크게 향상됐다. 일부 리뷰에서는 “포토리얼리즘 측면에서 구글의 나노 바나나 프로(Nano Banana Pro)에 근접하는 수준”이라는 평가를 받았다. 둘째, 이미지 내 텍스트 생성 정확도가 대폭 개선됐다. 포스터, 인포그래픽, 슬라이드, 간판 등에 들어가는 글자가 기존 모델에서 빈번하게 발생하던 글자 깨짐 현상을 상당 부분 해결했다. 이는 디자이너와 마케터에게 실질적인 생산성 향상을 의미한다. 셋째, 초현실적 콘셉트와 정교한 구성의 복잡한 장면을 안정적으로 생성할 수 있어 창작 활용도가 넓어졌다. 최대 해상도는 1,024×1,024 픽셀이며, 32K 토큰 길이의 텍스트 프롬프트를 처리할 수 있어 상세한 지시가 가능하다.
경쟁 구도: 오픈AI 의존에서 자립으로
이번 모델 출시는 마이크로소프트의 AI 전략에서 중요한 전환점이다. 그동안 마이크로소프트는 이미지 생성 분야에서 오픈AI의 DALL-E에 크게 의존해왔다. 빙 이미지 크리에이터(Bing Image Creator)와 코파일럿(Copilot)에 탑재된 이미지 생성 기능은 모두 DALL-E 기반이었다. 그러나 MAI-Image-2의 등장으로 마이크로소프트는 자체 기술력만으로 경쟁 가능한 모델을 확보하게 됐다. 한 외신은 MAI-Image-2가 “일부 이미지 품질과 텍스트 렌더링 영역에서 GPT-Image를 능가한다”고 평가했다. API 가격은 텍스트 입력 기준 100만 토큰당 5달러(약 7,250원), 이미지 출력 기준 100만 토큰당 33달러(약 4만 7,850원)로 책정됐다. 엔비디아(NVIDIA)의 최신 GB200 블랙웰(Blackwell) 아키텍처 기반 컴퓨트 클러스터로 모델을 운용하고 있으며, 이는 마이크로소프트가 AI 인프라에 쏟는 투자 규모를 방증한다.
효율화 모델로 시장 확대 노린다
마이크로소프트는 플래그십 모델 출시에 그치지 않고 곧바로 ‘MAI-Image-2-Efficient(이피션트)’를 후속 공개했다. 이 경량 모델은 플래그십 대비 22% 빠른 처리 속도와 41% 낮은 비용을 달성하면서도 이미지 품질은 플래그십 수준을 유지한다. 엔비디아 H100 GPU 기준 1,024×1,024 해상도에서 GPU당 처리량이 4배 높아 대규모 서비스 운영에 적합하다. 마이크로소프트는 이 모델이 “주요 텍스트-이미지 모델 대비 평균 40% 빠르다”고 밝혔다. MAI-Image-2-Efficient는 현재 마이크로소프트 파운드리(Microsoft Foundry)와 MAI 플레이그라운드에서 퍼블릭 프리뷰로 이용 가능하다. 가격 경쟁력과 속도를 앞세워 기업 고객의 대량 이미지 생성 수요를 공략하겠다는 전략이다.
한계점과 전망: 기술은 충분한데 제품은 보수적
현재 MAI-Image-2에는 몇 가지 뚜렷한 한계가 존재한다. 텍스트-이미지 생성만 지원하며 인페인팅(inpainting), 아웃페인팅(outpainting), 이미지-이미지 변환 기능은 제공하지 않는다. 출력 비율은 1:1 정사각형만 가능하고, 생성 간 약 30초의 대기 시간이 필요하며, 하루 15장의 생성 제한이 있다. 콘텐츠 필터링도 DALL-E나 구글 이마젠(Imagen)보다 엄격하다는 평가를 받는다. 한 리뷰어는 MAI-Image-2를 “보수적인 제품 결정에 발목 잡힌 강력한 기술 기반”이라고 표현했다. 그러나 마이크로소프트가 코파일럿과 빙 이미지 크리에이터에 순차적으로 MAI-Image-2를 적용하고 있고, 마이크로소프트 파운드리를 통한 개발자 API 공개도 예고한 만큼 이 모델의 진정한 영향력은 생태계 통합이 본격화되는 시점에 드러날 것으로 보인다. 한국 시장에서도 코파일럿 사용자가 늘어나고 있어, MAI-Image-2의 한국어 프롬프트 지원 여부와 한글 텍스트 렌더링 품질이 국내 크리에이터들의 관심사가 될 전망이다.
© 2026 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
기사 제보
제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.


