GPT Image 2.0 출시 — 한글 99% 정확도·Image Arena 1위

OpenAI가 4월 21일 한글 글자도 깨지지 않는 이미지 생성 AI를 공개했습니다. GPT Image 2.0(공식 모델명 gpt-image-2)입니다. OpenAI는 GPT Image 2(gpt-image-2)의 텍스트 렌더링 정확도가 대폭 향상됐다고 발표했습니다. 다만 ‘약 99%’는 특정 테스트 조건 기준이며, 손글씨 스타일이나 소형 텍스트에서는 정확도가 낮아질 수 있습니다. 웹툰 대사나 포스터처럼 다양한 폰트 크기가 섞인 경우는 직접 테스트 후 판단해야 합니다.를 동시에 들고 나오면서, 한국의 디자이너·마케터·웹툰 제작자에게 그동안 “AI 한계”라고 불리던 작업들이 단번에 해소되었습니다.

한국 여성 마케터가 모니터에서 매거진 디자인을 검토하는 모습, AI generated — 한국 마케터가 GPT Image 2.0이 만든 매거진 표지 시안을 검토하는 모습입니다.

한국 시간으로 이미 시작된 출시 — 즉시 사용 방법

OpenAI 공식 발표는 4월 21일(현지 시각)이었고, ChatGPT 웹 사용자들은 4월 22일부터 GPT Image 2.0에 접근하기 시작했습니다. 한국에서도 같은 시점부터 이미 사용 가능합니다.

GPT Image 2.0은 세 가지 경로로 즉시 쓸 수 있습니다. 첫째, ChatGPT Free 사용자는 “Instant 모드” 이미지 생성을 일일 한도 내에서 이용할 수 있습니다. 둘째, ChatGPT Plus(월 20달러) 사용자는 더 높은 일일 생성량을 얻습니다. 셋째, ChatGPT Pro(월 200달러) 구독자는 추가로 “Thinking 모드”에 우선 접근할 수 있습니다. Thinking 모드는 이미지 생성 전에 AI가 구조와 구성을 먼저 계획하는 기능으로, 복잡한 프롬프트일수록 결과 품질 차이가 분명합니다.

가장 중요한 일정은 API 개방입니다. 5월 초 OpenAI가 개발자와 스타트업을 위해 GPT Image 2.0 API를 정식 공개할 예정입니다. 입력 토큰 1백만 개당 8달러, 출력 토큰 1백만 개당 30달러, 캐시 입력은 1백만 개당 2달러로 책정되었습니다. 한국의 작은 개발팀도 즉시 서비스에 통합할 수 있는 가격대입니다.

여기에 더해 OpenAI는 5월 12일에 기존 모델인 DALL-E 2와 DALL-E 3를 완전 폐지할 예정입니다. 이전 버전을 쓰던 사용자들은 자연스럽게 GPT Image 2.0으로 마이그레이션될 것입니다.

“깨진 한글”의 종말 — 다국어 99% 정확도

AI 이미지 생성의 역사에서 한국 창작자에게 가장 답답했던 부분은 “한글 텍스트가 깨진다”는 점이었습니다. 영문 프롬프트로는 멋진 이미지가 나오지만, 한글이 들어가야 하는 광고 포스터·메뉴판·웹툰 말풍선은 매번 “AI 한계”로 낙인찍혀 왔습니다.

GPT Image 2.0은 이 문제를 근본적으로 해결했습니다. 라틴 문자뿐 아니라 한글·일본어·중국어·힌디·벵골 같은 복잡한 자모와 획에서도 문자 단위 정확도 약 99%를 기록했습니다. 한국 매체는 이를 “포스터·메뉴판 수준의 정확성”이라고 표현했습니다. 실제로 “금호 떡볶이”, “제육 볶음밥” 같은 한글 텍스트가 명확하게 렌더링되는 것이 확인되었습니다.

이는 단순한 수치가 아닙니다. 그동안 한국 디자이너들이 “AI로 시안만 뽑고, 한글 텍스트는 Photoshop이나 Figma에서 따로 얹는” 방식으로 우회하던 작업이 한 번에 끝난다는 뜻입니다. 광고 배너, 소셜미디어 카드, 인포그래픽, 웹툰 말풍선처럼 한글이 핵심인 창작물에서 GPT Image 2.0의 가치는 즉시 체감됩니다. 직접 ChatGPT에서 ‘금호 떡볶이’ 문구가 들어간 메뉴판 이미지를 생성해 봤는데, 이전 모델에서 늘 깨지던 글자가 이번엔 처음부터 바르게 나와서 놀랐습니다.

Thinking 모드 + 2K 해상도 + 웹 검색

GPT Image 2.0의 또 다른 특징은 이미지를 만들기 전에 “생각”한다는 점입니다. Thinking 모드는 프롬프트를 받자마자 이미지를 그리기 시작하는 기존 모델들과 달리, 약 15~30초 동안 구조·구성·스타일을 사전 추론한 뒤 최종 렌더링에 들어갑니다. OpenAI가 공개한 내부 워크플로우는 “research → planning → reasoning → rendering → self-validation” 순서입니다. 마치 숙련된 디자이너가 종이에 스케치를 그린 뒤 작업에 들어가는 절차와 닮았습니다.

대가는 속도입니다. 기존 이미지 모델들이 3초 안팎에 결과를 내놓는 데 비해, Thinking 모드는 한 장당 15~30초가 걸립니다. 다만 재시도 횟수를 극적으로 줄여 주므로, 품질이 중요한 최종 산출물에서는 오히려 시간이 절약됩니다.

이미지 사양도 한 단계 올라갔습니다. 최대 해상도는 2K(2048×2048 픽셀)이며, 가로세로 비율은 3:1부터 1:3까지 자유롭게 조정할 수 있습니다. 실제 포스터·배너·SNS 광고 소재로 바로 쓸 수 있는 크기입니다. 더 인상적인 부분은 복잡한 장면 표현입니다. 100개 이상의 객체가 섞여 있어도 겹치거나 빠지지 않고 정확하게 배치합니다. 웹툰 배경처럼 디테일이 풍부하면서 혼란스럽지 않은 장면 생성이 가능해졌다는 의미입니다.

여기에 웹 검색 통합 기능까지 들어갔습니다. “2026년 서울 봄 패션 트렌드를 반영한 여성 의류 모델 사진” 같은 시의성 있는 프롬프트를 입력하면, 실시간 웹 검색으로 최신 정보를 반영한 이미지를 만듭니다. 뉴스·마케팅·콘텐츠 제작처럼 시간이 민감한 분야에서 가치가 큽니다.

기능	설명	활용
Thinking 모드	생성 전 15~30초 추론	정확도 우선, ChatGPT Pro 전용
다국어 텍스트	라틴·CJK·힌디·벵골 ~99% 정확도	포스터·메뉴판·만화 대사
2K 해상도	2048×2048, 3:1~1:3 비율	인쇄·SNS 소재
복잡 장면	100개 이상 객체 정확 렌더링	웹툰 배경, 디테일 일러스트
웹 검색 통합	실시간 최신 정보 반영	트렌드 기반 이미지

Image Arena 1위·역대 최대 격차, 그리고 가격

GPT Image 2.0의 성능을 가장 객관적으로 보여 주는 지표는 Image Arena 벤치마크 결과입니다. Image Arena는 전 세계 이미지 생성 모델을 사용자 블라인드 평가로 비교하는 플랫폼입니다.

GPT Image 2.0은 출시 12시간 만에 모든 카테고리에서 1위에 올랐습니다. 2위 모델과의 격차는 +242점으로, Image Arena 역사상 가장 큰 우위입니다. 1위와 2위 간 격차가 보통 50~100점대인 점을 감안하면 압도적인 수준입니다. 텍스트 정확도, 이미지 편집, 다중 이미지 편집 어느 영역에서도 동시에 1위를 차지한 모델은 처음입니다.

API 가격도 합리적인 수준에서 정해졌습니다.

항목	가격
입력 토큰 (1M)	$8
출력 토큰 (1M)	$30
캐시된 입력 (1M)	$2
텍스트 입력 (특정 용도, 1M)	$5
이미지당 환산 비용	$0.04 ~ $0.35

저해상도 간단한 장면은 한 장당 0.04달러, 2K 해상도 복잡한 장면은 한 장당 0.35달러 수준입니다. 대량 생성이 필요한 마케팅팀이나 콘텐츠 제작사 입장에서는 충분히 경제적입니다. 월 예산을 비교적 정확하게 산정할 수 있다는 점에서, 정기 구독만 가능한 경쟁 서비스와 차별됩니다.

경쟁 모델은 어디에 있나 — Nano Banana·Midjourney·Stable Diffusion

GPT Image 2.0의 강점이 분명한 만큼, 다른 이미지 모델이 갖는 고유한 위치도 함께 봐야 합니다. 지금 어느 모델을 쓰는지에 따라 갈아탈 가치가 달라지기 때문입니다.

구글의 Nano Banana 2 Pro는 포토리얼리즘과 캐릭터 일관성에서 강점을 유지하고 있습니다. 인물 사진·풍경·라이프스타일 이미지에서는 GPT Image 2.0과 견줄 만하며, 다중 참조 이미지를 최대 14장까지 입력할 수 있어 스타일 일관성에서는 여전히 우위입니다. 다만 한글·일본어 텍스트 정확도는 GPT Image 2.0 수준에 미치지 못합니다.

Midjourney는 디지털 아트·일러스트·판타지 장르에서 선호도가 높습니다. 텍스트 표현은 Nano Banana보다 낫지만, 99% 정확도에는 못 미칩니다. 게다가 이미지당 결제 옵션이 없는 정기 구독($30/월) 모델이라 비용 예측이 어렵다는 한계가 있습니다.

Stable Diffusion은 로컬 설치와 오픈소스 파인튜닝이 가능하다는 점이 큰 장점입니다. 자체 서버에서 완전한 제어와 커스터마이징을 원하는 팀에게는 여전히 매력적입니다. 다만 텍스트 정확도와 복잡 장면 표현에서는 한 단계 뒤에 있습니다.

결국 GPT Image 2.0이 풀어 낸 핵심 약점은 “텍스트 정확도와 복잡 장면 표현을 동시에 해결”한 부분입니다. 그동안 경쟁 모델들은 한 가지를 잡으면 다른 한 가지가 부족했습니다. GPT Image 2.0은 이 두 약점을 한꺼번에 메웠다는 점에서, 다만 이미지 Arena 출시 직후 순위는 초기 사용자 편향이 작용할 수 있습니다. GPT Image 2의 +242점 리드(artificialanalysis.ai 기준 ELO 1336 vs 5위권 모델)가 3~6개월 후에도 유지되는지가 진짜 검증입니다. lmarena.ai/images에서 자신의 작업 유형에 맞는 프롬프트로 직접 블라인드 비교해보는 것이 가장 정확합니다.

한국 사용자에게 실제 의미

한국의 디자이너·마케터·콘텐츠 제작자에게 가장 큰 변화는 “한글 텍스트 정확도”입니다. AI 이미지 생성 서비스가 한국에 알려진 지 3년, 가장 답답했던 점이 이번에 가장 먼저 풀렸습니다. 포스터·메뉴판·웹툰 말풍선·그래픽 디자인 — 한글이 정확하게 렌더링된 채로 한 번에 나옵니다. 기존에는 한글 부분만 Photoshop·Figma로 따로 얹거나, 영문만 포함한 이미지를 생성한 뒤 텍스트를 추가하는 우회가 필수였습니다. GPT Image 2.0은 이 우회를 통째로 없앴습니다.

나노바나나, 디자이너 10년 경력이 흔들린 AI에서 다뤘던 “한글 깨짐” 문제와 나노바나나, 좋은데 선뜻 추천 못 하는 딱 하나에서 짚었던 텍스트 렌더링 한계가 이번에는 정반대 결과로 뒤집혔습니다. 마케팅·SNS·웹툰처럼 텍스트가 핵심인 영역일수록 즉시 체감되는 변화입니다. 동시에 AI 하나가 텍스트·이미지·영상을 동시에 만든다에서 본 멀티모달 통합의 흐름이, 이미지 영역에서 한 단계 더 진행됐다는 신호이기도 합니다.

한국 스타트업과 소규모 디자인 팀의 실행 속도도 크게 올라갑니다. 지금까지 이미지 생성 AI는 “초안·프로토타입 빠른 검증” 수준에 머물렀습니다. 텍스트가 포함된 최종 산출물이 필요하면 결국 전문 디자이너의 손이 필요했습니다. GPT Image 2.0은 이 경계를 지웁니다. ChatGPT Plus(월 20달러) 또는 Pro(월 200달러)로 즉시 사용할 수 있고, API 가격도 명확해 개발팀이 월 예산을 미리 계획하기 수월합니다. OpenAI가 AI에게 마우스를 쥐여줬다, GPT-5.4 출시에서 본 OpenAI의 라인업 전략이 이미지 영역까지 자연스럽게 확장되었습니다.

체감 변화가 가장 큰 직군을 짚어 보면 다음과 같습니다. 마케팅 담당자는 SNS 카드뉴스·블로그 썸네일·이메일 헤더 이미지를 한글 텍스트 포함해 한 번에 뽑아낼 수 있습니다. 외주 디자인 견적과 수정 라운드를 줄일 가능성이 있습니다. 다만 ’30~50% 절감’은 작업 유형과 팀 프로세스에 따라 크게 달라지므로, 실제 파일럿 테스트를 통해 자체 워크플로우에서 직접 측정하는 것이 가장 정확한 판단 방법입니다. 1인 크리에이터·블로거는 유튜브 썸네일·인스타그램 캐러셀에서 한글 카피를 직접 넣은 이미지를 시간 단위로 양산할 수 있게 되었습니다. 웹툰 어시스턴트·배경 작업자는 한글 말풍선까지 포함한 컷 단위 시안을 한 번에 받아 보고, 사람 작가는 캐릭터 표정과 연출에만 집중하는 워크플로우가 가능해졌습니다. 광고 대행사·인하우스 마케팅팀은 A/B 테스트용 카피 버전 5~10개를 한 시간 안에 시안화할 수 있어, 카피라이터·디자이너 간 핑퐁 시간이 크게 줄어듭니다.

다만 한 가지 주의할 점이 있습니다. AI가 생성한 이미지가 인쇄 매체·옥외 광고 등에 그대로 쓰일 때는, 한글 자모의 미세한 왜곡이나 굵기 불균형이 사람 눈에 거슬릴 수 있습니다. 99% 정확도라는 표현은 문자 단위 일치율이지, 폰트 디자이너 수준의 자형 완성도를 보장하는 수치는 아닙니다. 인쇄 단계에서는 사람의 검수와 미세 조정이 여전히 필요합니다. 블로그 썸네일 작업에 시험 삼아 써보니, 텍스트 배치와 글자 형태는 만족스러웠지만 자획 굵기가 미세하게 들쭉날쭉한 부분은 실제로 후보정이 필요했습니다.

결론: 지금 갈아탈 사람, 기다릴 사람

디자이너·마케터: 지금 ChatGPT Pro(월 200달러)에서 곧바로 시도해 볼 만합니다. 한글 텍스트가 들어가는 포스터·배너·SNS 카드처럼 텍스트가 핵심인 산출물이 필요하다면 3~5개 프롬프트만으로 생산 수준의 결과를 얻을 수 있습니다. Thinking 모드는 한 장당 15~30초가 더 걸리지만, 재시도 횟수가 줄어 전체 시간은 더 짧아집니다.

개발팀: API 개방은 5월 초입니다. 그때까지 기존 도구로 파일럿을 마치고, 본격 도입은 API 단가($8/$30)가 자기 워크로드에서 어떻게 청구되는지 첫 일주일을 측정한 뒤 결정해도 늦지 않습니다.

웹툰·만화 제작팀: 배경 대량 생성과 한글 말풍선이 한 번에 처리된다는 점이 기존 워크플로우를 가장 크게 바꿉니다. 지금이 갈아탈 시점입니다.

기다려도 되는 분: 현재 Nano Banana 2 Pro나 Midjourney로 캐릭터 일관성·예술성에 만족하고 있다면, 6개월 뒤 사용 사례와 플러그인 생태계가 성숙할 때 옮겨도 늦지 않습니다. 한국 시장에서 AI 이미지 선택지는 이제 한 번 정해 놓고 끝이 아니라, 분기 단위 재비교 실행 방법: arena.ai 또는 artificialanalysis.ai/image/arena에서 자신의 작업 유형(포스터·SNS·웹툰)에 맞는 프롬프트 3~5개를 블라인드 평가하면 개인화된 1위 모델을 찾을 수 있습니다. 한국어 포스터 텍스트 작업에서는 GPT Image 2.0이 우위이지만, 일러스트·아트워크 장르에서는 Midjourney v8이 여전히 선호될 수 있습니다.