알리바바, 이미지 생성 AI 'Qwen-Image-2.0' 공개... 구글 제미나이 꺾었다

3줄 요약

알리바바 클라우드, 차세대 이미지 생성 모델 ‘Qwen-Image-2.0’ 출시
7B 경량 아키텍처로 20B 전작 대비 빠른 추론, 2K 해상도 지원
AI 아레나 블라인드 테스트서 제미나이 2.5 플래시 제치고 1위

알리바바 클라우드가 차세대 이미지 생성 AI 모델 ‘Qwen-Image-2.0(통이천문 이미지 2.0)’을 공개했다. 2월 10일(현지시간) 발표된 이 모델은 이미지 생성과 편집을 하나로 통합한 것이 특징으로, 블라인드 테스트에서 구글의 제미나이(Gemini)를 제치고 1위를 차지했다.

7B 파라미터로 더 빠르게, 더 정교하게

Qwen-Image-2.0의 가장 큰 변화는 아키텍처 경량화다. 전작 Qwen-Image v1이 200억(20B) 파라미터였던 것에 비해, 새 모델은 70억(7B) 파라미터로 대폭 줄었다. 파라미터 수가 3분의 1로 줄었지만 성능은 오히려 향상됐다. 알리바바는 “더 작은 모델 크기와 더 빠른 추론 속도를 달성하면서도 텍스트-이미지 생성과 이미지 편집 모두에서 우수한 성능을 보인다”고 밝혔다.

해상도도 대폭 높아졌다. Qwen-Image-2.0은 네이티브 2K 해상도(2048×2048)를 지원해 피부 모공, 직물 질감 등 미세한 디테일까지 정교하게 묘사한다. 기존 이미지 생성 AI들이 1024×1024 수준에 머물렀던 것과 비교하면 4배 더 큰 해상도다.

알리바바가 운영하는 AI 아레나(AI Arena)에서 Qwen-Image-2.0은 인상적인 성적을 거뒀다. AI 아레나는 어떤 모델이 생성한 이미지인지 모르는 상태에서 사람이 직접 평가하는 블라인드 테스트 서비스다. ELO 랭킹 시스템을 사용해 모델 간 상대 성능을 측정한다.

텍스트-이미지 생성 부문에서 Qwen-Image-2.0은 구글의 제미나이 2.5 플래시 이미지 프리뷰(Gemini-2.5-Flash-Image-Preview, 일명 ‘나노 바나나’)를 제치고 리더보드 1위에 올랐다. 이미지 편집 부문에서도 제미나이 2.5 플래시를 앞섰고, 제미나이 3 프로 이미지 프리뷰(나노 바나나 프로)와 대등한 점수를 기록했다.

애널리틱스 비디야(Analytics Vidhya)의 실제 테스트에서도 호평이 이어졌다. 리뷰어는 “AI 모델이 생성한 이미지 중 가장 뛰어난 결과물”이라며 포토리얼리즘과 레이아웃 준수 능력을 높이 평가했다.

생성과 편집을 하나로: 옴니 모델

Qwen-Image-2.0의 또 다른 혁신은 ‘통합 모델’ 아키텍처다. 기존에는 이미지 생성 모델과 편집 모델이 분리돼 있어 작업에 따라 다른 도구를 사용해야 했다. Qwen-Image-2.0은 “이해(understand)와 생성(generate)을 통합한 옴니 모델”로, 하나의 모델에서 이미지 생성과 편집을 모두 처리한다.

사용자는 이미지를 업로드한 뒤 편집 지시를 내리면 된다. 텍스트 추가, 요소 수정, 다른 이미지와의 합성 등을 별도 도구 전환 없이 같은 모델에서 수행할 수 있다. 이는 워크플로우 효율성을 크게 높인다.

Qwen-Image-2.0은 최대 1,000토큰의 긴 지시문을 지원한다. 이를 활용하면 단순 이미지가 아닌 복잡한 인포그래픽을 직접 생성할 수 있다. 알리바바는 “PPT, 포스터, 만화 등 전문 인포그래픽을 직접 생성할 수 있다”고 설명했다.

기가진(GIGAZINE)의 테스트에 따르면 Qwen-Image-2.0은 다음과 같은 작업에서 강점을 보였다:

포토리얼리즘: 실제 사진과 구분하기 어려운 라이브 포토 생성
텍스트 렌더링: 이미지 내 텍스트를 깨짐 없이 정확하게 표현
복잡한 레이아웃: 슬라이드, 인포그래픽 등 다중 요소 배치
포즈 변형: 동일 인물의 다양한 포즈 출력
만화 생성: 지정된 구도에 맞춘 만화 컷 생성

특히 텍스트 렌더링은 기존 이미지 생성 AI들의 고질적 약점이었다. 미드저니(Midjourney), 달리(DALL-E) 등도 이미지 내 글자가 깨지거나 철자가 틀리는 문제가 있었는데, Qwen-Image-2.0은 이를 상당 부분 해결했다는 평가다.

Qwen-Image-2.0은 현재 알리바바 클라우드 바이롄(百炼) 플랫폼에서 API 초대 테스트를 진행 중이다. 일반 사용자는 Qwen 챗(chat.qwen.ai)을 통해 무료로 체험할 수 있다.

다만 오픈소스 공개 일정은 아직 발표되지 않았다. 기가진은 “Qwen-Image-2.0의 모델 데이터는 아직 공개되지 않았다”고 전했다. 전작 Qwen-Image v1이 초기 발표 후 약 1개월 뒤 아파치 2.0 라이선스로 오픈소스 공개됐던 점을 고려하면, 2026년 1분기 내 오픈소스 공개가 예상된다.

구분	Qwen-Image v1	Qwen-Image-2.0
파라미터	20B	7B (65% 감소)
최대 해상도	1024×1024	2048×2048 (2K)
토큰 지원	제한적	최대 1,000토큰
기능	생성 전용	생성 + 편집 통합
텍스트 렌더링	기본	전문 인포그래픽 수준

기사 제보

제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.

About

알리바바, 이미지 생성 AI ‘Qwen-Image-2.0’ 공개… 구글 제미나이 꺾었다

라이트LLM 공급망 공격, 가짜 보안 인증까지 겹친 이중 참사

오픈AI, 소라 서비스 전면 종료—영상 AI의 꿈은 왜 좌절됐나

AI 음악 전쟁, 소송에서 동맹으로 전환하다

오픈AI, 아시아 13개국과 재난 AI 실전 배치 시동

유튜브 CEO “톱 크리에이터, 절대 떠나지 않는다”

전기차 시대 최초의 클래식카, GM EV1이 될까