ChatGPT Images 2.0 출시… "이미지 속 텍스트가 드디어 읽힌다", 한국어·일본어도 지원

오픈AI (OpenAI )가 4월 21일 ChatGPT Images 2.0을 공식 출시했다. AI 이미지 생성의 최대 약점이었던 ‘이미지 속 텍스트 렌더링’이 비약적으로 개선돼, 영어는 물론 한국어·일본어·힌디어·벵골어 등 비라틴 문자도 정확히 표현한다. 인포그래픽, 슬라이드, 만화, 메뉴판, UI 모형까지 ‘바로 실무에 쓸 수 있는’ 수준의 결과물을 생성하며, ‘사고 능력(thinking capabilities)’을 탑재해 웹 검색·자기 검증·멀티 이미지 생성까지 가능하다.

AI 이미지 생성의 ‘아킬레스건’이 해결됐다

AI 이미지 생성 모델의 가장 오래된 약점은 이미지 속 텍스트였다. DALL-E 시리즈, 미드저니(Midjourney), 스테이블 디퓨전(Stable Diffusion) 모두 이미지 안에 글자를 넣으면 철자가 틀리거나, 글자가 뒤틀리거나, 의미 없는 기호가 생성되는 문제를 반복해왔다. ‘레스토랑 메뉴를 만들어달라’고 요청하면 메뉴 항목의 스펠링이 엉망이 되는 것이 대표적 사례였다.

Images 2.0은 이 문제를 근본적으로 해결했다. 오픈AI가 공개한 시연에서는 멕시코 음식 메뉴판이 레스토랑에서 즉시 사용 가능한 수준으로 생성됐다. 맞춤법, 자간, 정렬이 모두 정확했으며, 폰트 스타일까지 문맥에 맞게 적용됐다.

기능	Images 1.x (이전)	Images 2.0
영어 텍스트 정확도	낮음~중간	높음
비라틴 문자 (한국어·일본어·힌디어)	매우 낮음	높음
인포그래픽 생성	불가능에 가까움	가능
슬라이드/발표 자료	불가	가능
만화·웹툰 패널	텍스트 깨짐	다중 패널 지원
지도 위 라벨	부정확	정확
UI 모형(Mockup)	제한적	실무 수준
최대 해상도	–	2K
종횡비	제한적	3:1~1:3

‘사고하는 이미지 모델’: 웹 검색·자기 검증·멀티 출력

Images 2.0의 가장 혁신적 변화는 ‘사고 능력(thinking capabilities)’의 탑재다. 기존 이미지 모델은 프롬프트를 받으면 곧바로 이미지를 생성했지만, Images 2.0은 다음 과정을 거친다.

웹 검색: 프롬프트에 포함된 정보를 실시간 검색해 정확도 향상
자기 검증(self-check): 생성한 이미지를 스스로 점검하고 오류 수정
멀티 이미지: 한 프롬프트로 여러 이미지(마케팅 에셋의 다양한 사이즈, 만화 연속 패널 등) 동시 생성

이 ‘추론 기반 이미지 생성(reasoning-driven generation)’은 기존의 ‘프롬프트 → 출력’ 단방향 모델과 근본적으로 다르다. 페타픽셀(PetaPixel)은 오픈AI가 “Images 2.0이 ‘생각할 수 있다’고 주장했다”고 보도했다.

비라틴 문자 혁명: 한국어·일본어·힌디어 정확 표현

Images 2.0의 또 다른 획기적 변화는 비라틴(non-Latin) 문자 지원이다. 한국어, 일본어(히라가나·카타카나·한자), 힌디어(데바나가리), 벵골어 등 복잡한 글리프 체계를 가진 언어에서도 텍스트가 정확히 렌더링된다.

한국어 사용자에게 이는 실질적 게임체인저다. 이전 모델에서 한글을 포함한 이미지를 생성하면 자모가 뒤섞이거나 의미 없는 형태가 나왔지만, Images 2.0에서는 간판, 포스터, 인포그래픽, UI 라벨의 한글이 자연스럽게 표현된다. 이는 한국 디자이너·마케터·콘텐츠 크리에이터의 워크플로를 직접적으로 바꿀 수 있는 기능이다.

이전 세대 대비 ’10배 밀도’의 복잡성 처리

벤처비트(VentureBeat)의 분석에 따르면, Images 2.0은 이전 세대가 안정적으로 처리할 수 있었던 장면 복잡도의 약 10배에 달하는 밀도를 다룰 수 있다. 이는 한 이미지 안에 다수의 텍스트 요소, 여러 인물, 복잡한 배경을 동시에 포함해도 품질이 유지된다는 뜻이다.

실제 생성 사례로는 풀 인포그래픽(데이터 차트+설명 텍스트+아이콘), 멀티 패널 만화(대사 말풍선 포함), 프레젠테이션 슬라이드, 지도 위 라벨, 마케팅 배너 등이 소개됐다. 톰스 가이드(Tom’s Guide)는 “디자이너가 실제로 사용할 수 있는 첫 번째 AI 이미지 모델”이라고 평가했다.

가격·플랫폼·경쟁 구도

Images 2.0은 ChatGPT Plus·Pro·Business·Team·Enterprise 구독자에게 즉시 제공된다. 코덱스(Codex) 앱과 API에서도 접근 가능하다. 추론 기반 고급 출력은 유료 구독자에 한정된다.

경쟁 구도에서 오픈AI는 구글의 최신 이미지 모델 ‘나노 바나나 2(Nano Banana 2)’와 직접 경쟁한다. 미드저니, 어도비(Adobe) 파이어플라이(Firefly), 스테이블 디퓨전(Stable Diffusion)도 텍스트 렌더링 개선을 추진 중이지만, Images 2.0의 ‘추론 기반+멀티 언어’ 조합은 현재 가장 앞서 있다는 평가다.

한국 디자인·마케팅 업계에 주는 시사점

한국 디자인·마케팅 업계에 직접적 영향이 예상된다. 첫째, 한글 텍스트를 포함한 마케팅 에셋 제작이 AI로 자동화된다. SNS 배너, 상세페이지 이미지, 프로모션 포스터 등 텍스트가 포함된 비주얼 콘텐츠의 초안 생성이 극적으로 빨라진다.

둘째, 디자인 에이전시의 업무 구조가 변한다. 초안·컨셉 단계에서 AI가 여러 옵션을 빠르게 생성하고, 디자이너는 최종 보정·브랜드 일관성 관리에 집중하는 ‘인간-AI 협업’ 모델이 가속화된다.

셋째, 웹툰·만화 산업에도 파급이 있다. 멀티 패널 만화를 한 프롬프트로 생성하는 기능은 스토리보드 초안이나 소규모 창작자의 프로토타이핑에 활용될 수 있다. 다만 전문 웹툰 작가의 고유한 화풍과 스토리텔링을 대체하기보다는, 보조 도구로 자리매김할 가능성이 높다.

AI 이미지 생성의 ‘텍스트 문제’가 해결되면서, 남은 과제는 일관성(consistency)이다. 같은 캐릭터가 여러 이미지에서 동일한 외형을 유지하는 것, 브랜드 가이드라인에 맞는 색상·폰트를 일관되게 적용하는 것이 다음 혁신의 전장이 될 전망이다.

About

ChatGPT Images 2.0 출시… “이미지 속 텍스트가 드디어 읽힌다”, 한국어·일본어도 지원

스피노사우루스, 최애 공룡 1위 등극… ‘공룡덕후박람회’ 뜨거운 현장

봇 트래픽, 인터넷 역사상 최초로 인간 추월… 57.5% vs 42.5%

노션, 앤스로픽 장애 12시간 만에 서비스 복구