텐센트가 기존의 이미지 생성 기술적 한계를 뛰어넘은 차세대 네이티브 멀티모달 모델 ‘혼위안이미지(HunyuanImage)-3.0’을 오픈소스로 공개했다.
이번 모델은 텍스트와 이미지를 단일 오토레그레시브(Autoregressive) 프레임워크로 통합한 아키텍처를 통해, 기존 폐쇄형 상용 모델을 압도하는 성능을 구현한다. 오토리그레시브 모델은 입력 시퀀스를 따라가면서 다음 요소를 예측하는 방식으로, 긴 프롬프트나 복잡한 구성에서도 뛰어난 성능을 발휘한다.
혼위안이미지-3.0은 현존하는 오픈소스 이미지 생성 모델 중 최대 규모인 800억 개의 파라미터를 보유한 ‘혼합 전문가(MoE, Mixture of Experts)’ 구조를 채택했다. MoE 구조는 다양한 전문가 모델을 조합하여 더 높은 성능을 구현하는 기술로, 64개의 전문가 모델이 협력하여 이미지 생성의 정확성을 높인다. 또한 전문가 모델 중 토큰당 130억 개의 파라미터만 활성화하여 연산 효율성을 극대화했다.
또한 업계 표준처럼 여겨지던 DiT(Diffusion Transformer) 구조를 탈피하고, 텍스트와 이미지 모달리티를 직접적으로 통합 모델링하여 문맥에 더욱 최적화된 이미지 생성이 가능하다. 함께 배포된 ‘혼위안이미지-3.0-인스트럭트(Instruct)’ 체크포인트는 사용자의 의도를 지능적으로 해석한다. 자체 개발한 MixGRPO 알고리즘 덕분에 사람 의도를 파악하고, 멀쩡한 배경은 그대로 두고 원하는 부분만 수정하거나 여러 사진을 자연스럽게 합칠 수 있다.
공개된 가중치와 코드를 이용해 크리에이티브 스튜디오와 스타트업은 투명한 커스터마이징과 프라이빗 배포할 수 있다.
© 2026 TechMore. All rights reserved. 무단 전재 및 재배포 금지.
기사 제보
제보하실 내용이 있으시면 techmore.main@gmail.com으로 연락주세요.


