AI 하나가 텍스트·이미지·영상을 동시에 만든다

Luma가 크리에이티브 작업 전 과정을 처리하는 AI 에이전트 플랫폼 ‘Luma Agents’를 2026년 3월 5일 TechCrunch 단독 보도로 공개했습니다. 2026년 3월 23일부터 공개 무료 체험이 시작되었습니다. 텍스트, 이미지, 영상, 오디오를 하나의 시스템에서 기획부터 완성까지 처리한다는 점에서, 기존의 단일 기능 AI 도구들과 결이 다릅니다.

하나의 모델이 모든 포맷을 이해합니다

Luma Agents의 핵심은 Unified Intelligence라는 새로운 아키텍처입니다. 기존 AI 워크플로우는 텍스트 생성 모델, 이미지 생성 모델, 영상 생성 모델을 각각 호출하고 결과를 이어붙이는 방식이었습니다. Luma는 이 접근법을 완전히 바꿨습니다.

Uni-1이라는 첫 번째 모델은 텍스트, 이미지, 영상, 오디오, 공간 추론을 단일 아키텍처에서 처리합니다. 별도 모델을 체이닝하는 게 아니라, 하나의 멀티모달 추론 시스템이 모든 포맷을 이해합니다. 기술적으로 말하면, Uni-1의 내부는 autoregressive 구조로 작동합니다(autoregressive는 “각 단계에서 이전 결과를 바탕으로 다음 결과를 생성하는” 의미). Text token과 image token이 한 시퀀스에 인터리브(interleave, 끼워넣는 방식)되어 모델이 의도를 추론하면서 동시에 이미지를 생성하는 방식입니다. 기존의 “먼저 계획하고 나중에 실행” 단계 분리가 아니라, 추론과 생성이 같은 신경망 안에서 병렬로 일어나는 것입니다.

이 아키텍처의 가치를 이해하려면 비교가 필요합니다. 기존 멀티 스텝 방식은 한 단계에서 실수가 나면 다음 단계부터 모두 틀려집니다. 예를 들어 이미지 생성 단계에서 “파란색 배경을 원했는데 빨간색이 나왔다”면, 그 이미지를 바탕으로 생성되는 영상·음성·자막이 모두 의도와 어긋납니다. Uni-1의 통합 추론 방식은 이 문제를 구조적으로 해결합니다. 하나의 모델이 전체 결과물을 일관되게 유지하면서 각 포맷을 생성하기 때문입니다.

이 구조 덕분에 에이전트가 “30초 광고를 만들어줘”라는 지시를 받으면, 스크립트 작성→이미지 생성→영상 편집→오디오 합성까지 스스로 계획하고 실행할 수 있습니다. 각 단계에서 스타일 일관성과 감정 톤을 자동으로 유지합니다. 이는 마치 경험 많은 크리에이티브 디렉터가 여러 전문가팀을 지휘하는 것처럼 작동합니다.

실제로 한 광고사의 구체적 사례를 살펴보면, 통상적으로 1,500만 달러(약 210억 원) 규모의 1년짜리 멀티채널 캠페인(인쇄·영상·소셜·방송)을 40시간, 2만 달러(약 2,800만 원)에 처리했습니다. 이는:

비용 절감: 통상 예산 대비 약 750배 절감 (1,500만→2만)
시간 단축: 1년(365×24=8,760시간) → 40시간 = 약 200배 단축
인원: 보통 15~20명이 6개월 소요하던 작업을 AI가 40시간 만에 완료

더 깊은 의미는 “단순히 빨랐다”가 아니라 “광고 품질이 떨어지지 않으면서 이 정도 절감을 달성했다”는 점입니다. 광고 에이전시는 납기를 놓치거나 품질을 타협할 수 없는 업종입니다. 그곳에서 AI를 즉시 배치했다는 것은 검증된 신뢰성을 의미합니다.

Uni-1의 벤치마크 성능도 주목할 만합니다. 인간 선호 Elo 순위(사람들이 느끼는 이미지 품질을 100점 만점으로 평가한 순위)에서:

전체: 1위 (Google Veo 3, OpenAI DALL-E 3 제치고)
스타일·편집: 1위 (색감, 텍스처, 미학적 일관성)
참조 기반 생성 (Reference-Based Generation, 스타일 레퍼런스를 받아 따라하는 능력): 1위
텍스트→이미지: 2위 (유일하게 Google이 앞서는 부문)

VentureBeat는 이를 “Google과 OpenAI를 능가하면서 30% 더 저렴하다”고 평가했습니다. 기술 벤치마크뿐 아니라 경제성까지 앞선다는 뜻입니다.

기존에 Cursor가 코딩 에이전트 8개를 동시에 돌려 매출 2조를 쌓은 것처럼, 크리에이티브 영역에서도 에이전트 기반 워크플로우가 본격화되고 있습니다.

Uni-1이 앞으로 더할 수 있는 것들

Luma는 공식 발표에서 Uni-1의 향후 능력 확장을 언급했습니다. 현재는 텍스트·이미지·영상·오디오 생성에 집중되어 있지만, 향후 음성·영상 출력 능력도 추가될 예정입니다. 이는 실시간 음성 생성, 립싱크 자동 맞추기, 멀티랭귀지 더빙 등을 의미합니다. 완성되면 “전 세계 언어로 자동 자막과 음성이 같이 생성되는 영상”도 가능해집니다.

Ray 3.14 – 네이티브 1080p에 3배 저렴해졌습니다

AI 크리에이티브 도구를 사용하는 여성, AI generated — AI 워크플로우를 활용하는 크리에이터

Luma Agents와 함께 공개된 영상 생성 모델 Ray 3.14도 주목할 만합니다. 이전 세대의 Ray 3 대비 핵심 수치가 크게 개선되었습니다.

멀티모달 AI 영상 제작 파이프라인 컨셉, AI generated — 멀티모달 AI 영상 제작 파이프라인

항목	Ray 3	Ray 3.14
해상도	720p	네이티브 1080p
비용	기준가	30% 인하
속도	기준	4배 빠름
특징	최초 추론 영상 모델	빠른 모션 + 초현실적 디테일

네이티브 1080p라는 점이 중요합니다. 720p를 업스케일하는 게 아니라 처음부터 1080p로 생성한다는 의미입니다. 유튜브나 인스타그램에 바로 올릴 수 있는 품질이 기본으로 나온다는 뜻입니다.

구체적인 수치를 살펴보면:

30초에 1080p 클립 생성 (이전 1.2분→4배 빨라짐)
분당 $0.02 (이전 대비 30% 인하)
최대 18초 영상 생성 지원
전 세대 Ray 3 대비: 4배 빠름, 3배 저렴, 네이티브 1080p 기본

속도와 가격의 개선은 특히 영상 콘텐츠 생산 업계에 파급력이 있습니다. 방송, 스트리밍, 광고, 후반 작업을 다루는 크리에이터들이 즉시 대체 도구를 검토하기 시작했습니다. 영상 제작의 접근성이 대폭 낮아진 셈입니다.

외부 AI 모델까지 자동 지휘합니다

Luma Agents가 단순한 영상 생성 도구가 아닌 이유가 여기 있습니다. 자사 모델(Ray 3.14)뿐 아니라 외부 AI 모델도 조율합니다. 현재 연동된 모델 목록입니다:

Google Veo 3 — 영상 생성 (복잡한 모션 표현 시)
Nano Banana Pro — 이미지 생성 (빠른 처리 필요 시)
ByteDance Seedream — 이미지 생성 (중국 시장 대응용)
ElevenLabs — 음성 합성 및 음성 복제

에이전트가 작업 계획을 세우고, 각 단계에 가장 적합한 모델을 자동으로 선택해서 실행합니다. 예를 들어 광고 스토리보드를 받으면:

나레이션 스크립트 추출 → ElevenLabs로 음성 생성 및 톤 조정

배경 장면 설명 → Google Veo 3로 고품질 영상 생성

제품 이미지 요구 → Seedream으로 일관된 스타일 유지

최종 편집 및 합성 → Ray 3.14로 모든 요소 통합

단계별로 최적 모델을 자동 할당하는 거죠. 크리에이터는 “광고 브리핑과 스토리보드”만 제공하면, 에이전트가 어떤 모델을 언제 어디에 쓸지 판단합니다.

이는 prompt adherence(사용자의 의도를 정확히 따르는 능력)라는 벤치마크와 직결됩니다. Uni-1이 다른 모델들보다 높은 prompt adherence를 보인다는 것은 “사용자의 의도를 정확히 이해하고 실행한다”는 의미입니다. 이 능력이 없으면 외부 모델 조율이 불가능합니다. 한 모델이 사용자 의도를 잘못 해석하면 전체 워크플로우가 깨지기 때문입니다.

이 방식은 16개 AI 에이전트가 협력해서 C 컴파일러를 만든 사례와 같은 원리입니다. 하나의 에이전트가 모든 걸 하는 게 아니라, 각 분야의 전문 모델을 조율하는 ‘지휘자’ 역할을 합니다. OpenAI가 GPT-5.4에 마우스 제어 기능을 추가한 흐름도 같은 방향에 있습니다. AI가 이제 단일 도구가 아니라 다른 도구를 부리는 주체가 되고 있다는 뜻입니다.

광고 에이전시와 브랜드가 이미 움직입니다

Luma Agents는 공개와 동시에 글로벌 광고 에이전시와 브랜드에 투입되었습니다.

퍼블리시스 그룹(중동·터키 담당), 서비스플랜 그룹(유럽 최대 독립 에이전시), 아디다스, 마쓰다, Humain(사우디 AI 기업) 등이 이미 실무에 적용했습니다. 이들은 모두 글로벌 톱티어 브랜드와 에이전시들입니다.

이 기업들이 주목할 만한 이유는 단순합니다. 광고·크리에이티브 업계는 세상에서 가장 까다로운 시장입니다. 납기 엄수, 품질 보증, 클라이언트 만족도, 예산 관리 – 모든 것을 동시에 맞춰야 합니다. 그런 업계에서 AI를 즉시 실무 배치했다는 것은 “그동안 개발된 생성형 AI 중 처음으로 신뢰할 만한 도구가 나왔다”는 신호입니다.

한 광고 에이전시의 구체적 사례는 충격적입니다. 통상적으로 1년 소요되는 1,500만 달러 멀티채널 캠페인(TV광고, 인쇄, 소셜, 웹)을 40시간, 2만 달러에 처리했습니다:

비용: 통상 예산 대비 약 750배 절감 (1,500만→2만)
시간: 1년(365×24시간=8,760시간) → 40시간 = 약 200배 단축
팀 규모: 보통 15~20명의 디자이너·영상편집자·카피라이터 = 사실상 1명의 AI 에이전트로 교체

이 수치들이 “구성” 사례가 아니라 실제 고객 프로젝트라는 점이 중요합니다. 광고사가 고객에게 청구한 실제 비용이 2만 달러이고, 실제 소요 시간이 40시간이라는 의미입니다. 광고 에이전시는 거짓 수치를 제시할 수 없습니다. 다음 계약이 결정되기 때문입니다.

이제 광고 산업의 경쟁 구도가 바뀌고 있습니다. 더 이상 “몇 명의 크리에이티브 천재를 가진 에이전시”가 이기는 게 아닙니다. “AI 에이전트를 어떻게 운영하는가”가 경쟁력이 된 것입니다.

경쟁사는 어디에 있을까요?

Luma가 발표 직후 광고 에이전시와 브랜드에 즉시 투입된 배경을 이해하려면, 경쟁 구도를 봐야 합니다.

Google Veo 3: 영상 생성 능력이 뛰어나지만, Luma Agents 같은 멀티모달 에이전트 플랫폼이 아닙니다. 개별 도구로 쓰려면 여전히 단계별 수동 작업이 필요합니다. 크리에이터가 손으로 각 단계를 조율해야 합니다.

OpenAI Sora: 수개월 전 공개되었지만 상업화 타이밍이 미뤄지고 있으며, 현재로서는 텍스트→영상 기능에 집중되어 있습니다. Luma처럼 멀티 모달을 하나의 에이전트로 통합하지는 않습니다. 음성, 이미지, 편집 등을 조율하는 지휘자 역할이 없기 때문에 여전히 크리에이터가 각 단계를 수동 조율해야 합니다.

Luma의 차별점:

텍스트·이미지·영상·오디오·공간 추론을 하나의 에이전트가 처리
외부 모델과의 자동 조율 기능 (Google, ElevenLabs, ByteDance 등 지원)
광고·크리에이티브 산업의 실무 검증 완료 (750배 비용 절감 사례 실존)
가격 30% 인하 (Ray 3.14 기준) + 접근성 확보

이 시점에서 경쟁은 “어떤 영상 모델이 더 좋은가”에서 “어떤 워크플로우로 묶는가”로 옮겨가고 있습니다. 개별 도구 성능 경쟁은 끝났습니다. 이제는 “에이전트가 도구들을 얼마나 잘 지휘하는가”가 우승자를 결정합니다.

한국 크리에이터와 광고 업계에 시사하는 점

지금까지 한국의 광고·콘텐츠 업계는 개별 AI 도구를 조합해서 썼습니다. ChatGPT로 카피를 쓰고, Midjourney로 이미지를 만들고, Runway로 영상을 생성하고, ElevenLabs로 나레이션을 붙이고, 마지막에 수동으로 편집하는 식입니다. 각 도구가 좋지만, 도구 사이를 오가는 시간이 전체 작업의 절반 이상을 차지합니다. 또한 각 도구의 스타일이 다르기 때문에, 최종 결과물이 “짜집기”처럼 보일 수도 있습니다.

Luma Agents가 가져오는 변화는 “AI가 워크플로우의 지휘자가 되는 시대”입니다. 광고 에이전시나 크리에이터가 해야 할 일은 더 이상 “각 도구를 잘 쓰는 것”이 아닙니다. 이제는 “어떤 워크플로우로 에이전트를 구성할 것”인가로 바뀌었습니다. 이미 광고사들이 비용과 시간을 750배 줄렸다는 사례가 실존하니, 이 변화는 선택이 아닌 생존 문제가 될 겁니다. 2026년 중반이 턴포인트가 될 것으로 보입니다.

가격 모델도 주목할 만합니다. 현재 Luma는 프리미엄 구조로 운영되며, lumalabs.ai에서 가입할 수 있습니다. 무료 플랜(영상 8건, 비상업적 용도), Lite($7.99/월, 50건), Plus($23.99/월, 160건, 상업적 사용 가능)로 나뉩니다. 한국 스타트업이나 소규모 광고사도 즉시 도입 가능한 가격대입니다.

Luma Agents는 더 이상 “더 좋은 이미지를 만드는 도구” 경쟁이 아니라 “워크플로우 자동화 전쟁”에 우리를 초대했습니다. 이 전쟁에서 이기려면 “기술을 어떻게 조합하는가”가 핵심입니다.