촬영 없이 강의 영상 만드는 법, Vrew 7단계 공식

촬영 0분, 강의 영상을 처음부터 끝까지 만들어봤다

지난 편에서는 Vrew가 어떤 도구인지, 뭘 할 수 있는지 전반적으로 훑어봤습니다. “그래서 실제로 어떻게 쓰는 건데?”라는 의문이 남았을 것 같습니다.

이번 편에서는 그 답을 드립니다. 온라인 강의 영상 하나를 처음부터 끝까지 만들어봤습니다. 카메라, 마이크, 조명, 촬영 — 전부 없습니다. 텍스트 입력만으로 완성까지 가는 과정을 담았습니다.

대상은 명확합니다. 유튜브 설명 영상을 만들고 싶은데 얼굴 노출이 부담스러운 분, 발표 자료를 영상으로 바꾸고 싶은 분, 온라인 강의를 촬영 없이 제작해야 하는 분. 핵심은 Vrew의 “텍스트로 비디오 만들기” 기능입니다. 이 기능 하나로 슬라이드 구성, 음성, 이미지까지 전부 자동으로 처리됩니다.

7단계로 완성하는 텍스트 영상

1단계는 “텍스트로 비디오 만들기” 선택입니다. Vrew를 열면 메인 화면에 여러 시작 방법이 나오는데, 세 번째를 선택합니다. 여기서부터 카메라는 완전히 필요 없는 흐름으로 들어갑니다.

2단계는 화면 비율과 템플릿 선택입니다. 유튜브 영상이라면 16:9, 쇼츠나 릴스라면 9:16을 고릅니다. 정사각형(1:1)도 지원하니 플랫폼에 맞게 선택하면 됩니다. 그 다음은 템플릿인데, 여기서 처음으로 멈춥니다. 선택지가 생각보다 많아요. 정보전달, 제품소개, 다큐멘터리, 뉴스, 브이로그 스타일까지 분위기가 제각각이라 고르는 데 시간이 좀 걸렸습니다. 강의 영상이라면 “정보전달” 계열이 무난합니다. 폰트, 색상, 레이아웃이 전부 자동으로 적용되니 디자인에 크게 신경 쓸 필요가 없다는 게 장점입니다.

3단계는 대본 입력, 핵심 단계입니다. 방법이 두 가지예요. 첫째, 주제만 입력하면 AI가 대본을 써줍니다. 무료 플랜은 GPT-3.5 기반, 유료는 GPT-4.0 기반입니다. 품질 차이가 체감될 정도로 나요. ChatGPT 유료의 가치를 따져본 적 있으시다면 감이 오실 겁니다. “파이썬 기초 강의 5분 분량”처럼 길이까지 지정하면 그에 맞게 분량을 조절해줍니다. “다시 쓰기” 버튼으로 재생성도 가능합니다. 둘째, 기존에 써둔 대본을 바로 붙여넣는 방법입니다. 블로그 글, 발표 원고, 강의 스크립트 모두 그대로 활용됩니다. 저는 미리 써둔 원고를 붙여넣었는데, 이게 훨씬 결과물이 자연스러웠습니다. AI 대본은 구조는 잘 잡아주지만 표현이 조금 무난해서, 직접 쓴 원고의 개성이 살아남는 느낌이었어요.

4단계는 TTS 음성과 배경음악 선택입니다. 대본이 완성되면 음성을 선택합니다. 300가지가 넘는 TTS 중에서 고를 수 있고, 선택 전에 미리듣기가 됩니다. 한국어 성인 여성, 한국어 청년 남성, 영어 원어민 등 언어와 톤이 다양합니다. 솔직히 말하면, 20~30개는 미리 들어보고 골라야 합니다. 어색한 것도 꽤 있어요. 그래도 한 번 고르면 이후 편집에서 자동 적용되니 처음 세팅이 전부라고 보면 됩니다. 배경음악도 함께 선택합니다. 분위기별로 분류가 돼 있어서 강의용이면 “차분한” 계열로 고르면 됩니다.

5단계, AI 자동 생성. 이게 이 기능의 핵심이에요. 설정이 끝나면 생성 버튼을 누릅니다. 버튼 하나 누르고 기다리면 영상 구조가 완성됩니다. 대본을 문단 단위로 슬라이드로 나누고, 각 슬라이드에 AI 이미지를 삽입하고, TTS 음성과 타이밍을 자동으로 맞춥니다. 5분 분량 기준 생성 시간은 1~2분이었습니다. 완성되고 처음 재생했을 때 솔직히 놀랐습니다. 이 정도면 쓸 수 있겠다.

6단계는 슬라이드별 세부 편집입니다. 자동 생성 결과가 100점은 아닙니다. AI가 이미지를 엉뚱하게 골라오거나, 분할 지점이 어색한 경우가 있습니다. 여기서 편집이 들어갑니다. 텍스트를 수정하면 TTS가 자동으로 재생성됩니다. 전체를 다시 만들 필요 없이 수정한 슬라이드만 업데이트돼요. 이미지는 AI 재생성을 요청하거나 내장된 무료 에셋 라이브러리에서 직접 검색해 교체할 수 있습니다. 슬라이드 순서 변경, 추가, 삭제도 드래그로 간단합니다. 이 단계가 전체 작업 중 가장 시간이 걸리는데, 5분 영상 기준으로 20~30분 정도 잡으면 됩니다. 전체 작업 시간은 대본 포함 약 40~50분이었습니다. 같은 영상을 촬영으로 만들었다면 장비 세팅, 녹화, 편집까지 반나절은 잡아야 했을 겁니다.

7단계, 내보내기입니다. MP4로 내보냅니다. 해상도는 720p/1080p, 프레임레이트는 30/60fps 중 선택입니다. 강의 영상이라면 1080p/30fps가 표준이에요. SRT 자막 파일도 별도로 추출됩니다. 유튜브에 자막 파일을 함께 올리면 검색 노출에도 유리합니다. Premiere Pro나 Final Cut Pro, DaVinci Resolve로 XML 형식 내보내기도 지원해서, Vrew에서 기본 구조를 잡고 전문 도구에서 마무리하는 워크플로우도 가능합니다.

TTS 목소리, 생각보다 고를 게 많다

한국어 음성만 65개가 넘습니다. 여성, 남성, 어린이, 어르신은 기본이고 홈쇼핑 진행자 스타일, 악당 캐릭터, 이북 내레이터까지 있어요. 처음엔 “이걸 다 어떻게 고르지” 싶지만, 막상 써보면 콘텐츠 성격에 맞는 목소리가 딱 걸립니다. 제품 소개 영상에는 홈쇼핑 톤이 의외로 잘 어울리고, 어린이 교육 콘텐츠에는 어린이 목소리가 몰입감을 높여줍니다. 이전에 클로바노트와 다글로를 비교했을 때도 느꼈지만, 음성 AI는 결국 내 콘텐츠에 맞는 목소리를 찾는 게 핵심입니다.

감정 옵션도 있습니다. 기쁜, 차분한, 슬픈, 화난 네 가지를 선택할 수 있어서 같은 목소리라도 분위기가 달라져요. 뉴스 스타일 정보 영상엔 차분한, 제품 후기엔 기쁜 톤을 써보세요. 체감 차이가 꽤 납니다.

TTS를 제대로 활용하려면 구두점 사용법을 알아야 합니다. 문장 끝에 물음표(?)를 붙이면 자동으로 의문형 억양이 됩니다. “이거 진짜 됩니까?”와 “이거 진짜 됩니다.”는 같은 단어지만 TTS가 읽는 억양이 달라요. 쉼표(,)는 자연스러운 숨 쉬기 포인트가 됩니다. 긴 문장을 한 번에 쏟아내면 로봇 같은 느낌이 나는데, 적절히 쉼표를 넣으면 훨씬 인간에 가까운 리듬이 만들어집니다.

속도와 음량 조절은 슬라이드별로 개별 설정이 됩니다. 강조할 부분은 조금 느리게, 부가 설명은 빠르게 처리하면 듣는 사람이 자연스럽게 핵심을 인식합니다. 에코, 전화음, 터널 효과 같은 음향 효과도 지원하는데, 과하게 쓰면 산만해지니 포인트로만 활용하는 게 좋습니다.

슬라이드마다 다른 목소리를 지정하는 것도 가능합니다. 질문자와 답변자를 다른 목소리로 설정하면 인터뷰 형식 영상이 되고, 챕터 전환 시 목소리를 바꿔서 섹션 구분을 청각적으로 표현할 수도 있습니다.

원하는 길이의 영상을 만드는 공식

이 글에서 가장 중요한 부분입니다.

Vrew는 슬라이드별로 시간을 직접 입력하는 방식이 아닙니다. TTS가 대본을 읽는 속도에 따라 영상 길이가 결정됩니다. 처음에 “몇 분짜리 만들면 되지?” 하고 시작하면 막막해질 수 있어요.

핵심 공식은 단순합니다. 목표 시간(분)에 300을 곱하면 필요한 대본 글자수가 나옵니다.

영상 길이 필요 글자수 비고
1분 쇼츠 약 300자 무료 OK
5분 설명 약 1,500자 무료 OK
10분 영상 약 3,000자 무료 한도 근처
25분 강의 약 7,500자 유료 또는 분할 필요

TTS 속도를 빠르게 설정하면 같은 글자수라도 짧아지고, 느리게 하면 길어집니다. 처음엔 기본 속도로 돌려보고 길이를 보정하는 방식이 제일 편합니다. 한국어 기준 보통 속도에서 분당 약 250~350자를 읽으니, 300자를 기준으로 잡으면 실제 결과와 거의 일치합니다.

길이를 조절하는 방법은 네 가지입니다. 첫째, 대본 글자수 조절이 가장 기본이고 정확합니다. 위 공식에 맞춰 대본을 쓰면 됩니다. 생각보다 300자가 많지 않아서, 1분짜리 쇼츠 대본은 금방 쓸 수 있습니다.

둘째, TTS 속도 조절입니다. 슬라이드 전체 또는 개별로 속도를 조정할 수 있습니다. 정보 밀도가 높은 영상은 약간 빠르게, 강의 콘텐츠는 느리게 설정하면 자연스럽습니다.

셋째, 클립별 배속 효과입니다. 특정 슬라이드만 1.2배속이나 0.8배속으로 처리할 수 있습니다. 전체 속도는 건드리지 않고 일부만 압축하거나 늘릴 때 유용합니다. 배경음악은 배속을 바꿔도 1배속을 유지하니 BGM이 이상해지는 걱정은 안 해도 됩니다.

넷째, 빈 클립 삽입입니다. 챕터 전환이나 시각적 강조가 필요한 구간에 대본 없는 빈 슬라이드를 끼워 넣으면 여유 시간을 확보할 수 있습니다. 배경 음악만 흐르는 인트로나 아웃트로를 만들 때도 활용됩니다.

실전 시나리오 3가지

1분 쇼츠부터 보겠습니다. 300자 대본, 세로 비율(9:16), TTS 속도 약간 빠르게. 한 가지 정보를 임팩트 있게 전달하는 형식입니다. 슬라이드 3~4장, AI 이미지 자동 생성으로 5분 안에 완성됩니다. “AI로 회의록 자동 정리하는 법” 같은 단일 주제에 최적이에요.

5분 유튜브 설명 영상은 1,500자 대본, 가로 비율(16:9), 차분한 음성으로 가면 됩니다. 도입-본문-마무리 3단 구조로 500자씩 배분하면 구성이 자연스럽습니다. NotebookLM처럼 강의 콘텐츠를 다루는 주제라면 이 길이가 시청자 이탈 없이 정보를 전달하기에 딱 맞습니다.

25분 강의가 가장 도전적입니다. 7,500자를 한 번에 넣으면 무료 한도를 초과합니다. 현실적인 방법은 2,500자씩 3파트로 나눠서 각각 생성한 뒤 합치는 겁니다. 파트별로 TTS 음성은 동일하게 유지하고, 각 파트 시작에 빈 클립을 삽입해서 챕터 구분을 만들어주면 자연스럽습니다. Vrew 내에서도 붙일 수 있고, 다빈치 리졸브(무료)에서 합쳐도 됩니다.

솔직히 말하면, 이런 한계가 있다

1회 생성 상한이 10,000자입니다. 유료도 예외 없습니다. 약 30분이 최대이고, 그 이상은 분할 필수입니다. 다만 분할 제작이 오히려 편집 자유도를 높여주는 면도 있어서, 처음부터 파트를 나눠 기획하는 게 현실적입니다.

AI 이미지 자동삽입은 10개 제한이 있습니다. 20장짜리 슬라이드라면 절반은 직접 골라야 합니다. Vrew 안에 무료 에셋 검색 기능이 있으니, 키워드로 검색해서 바로 교체하면 됩니다.

슬라이드별 시간을 직접 입력할 수 없습니다. TTS 읽기 속도에 의존하는 구조라 “이 슬라이드 정확히 5초”는 안 됩니다. 방송 수준의 정밀한 편집이 필요하다면 이 부분이 아쉬울 수 있어요. 빈 클립 삽입과 배속 효과로 간접 조절은 가능하지만, 초 단위 정밀 제어는 전문 편집 도구의 영역입니다.

무료 플랜은 GPT-3.5 기반 대본입니다. 유료(GPT-4.0)와 비교하면 문장의 자연스러움과 깊이에서 차이가 납니다. 체험용으로는 충분하지만, 실제 채널 운영용이라면 직접 쓴 대본을 붙여넣는 방법을 권합니다.

그 외에 전문 편집 도구급 트랜지션은 없고, 인터넷 연결은 필수(서버 기반 AI)이며, 무료 플랜에는 워터마크가 붙습니다.

알면 훨씬 편해지는 팁 7가지

첫째, 목표 시간에 300을 곱하면 대본 글자수가 나옵니다. 이 공식 하나면 끝입니다. 둘째, 긴 영상은 분할 계획부터 세우세요. 파트1, 파트2로 나누면 오히려 편집 자유도가 높아집니다. 셋째, AI 이미지가 별로면 교체하세요. Vrew 내 무료 에셋 검색으로 픽사베이, 언스플래시 수준 이미지를 키워드로 바로 찾을 수 있습니다. 넷째, 구두점으로 TTS 품질을 높이세요. 물음표는 억양, 쉼표는 호흡을 만듭니다. 다섯째, 배경음악은 배속 변경해도 1배속을 유지합니다. 영상 속도를 바꿔도 BGM은 안정적이에요. 여섯째, SRT 자막 파일을 추출해서 유튜브 CC 자막으로 업로드하면 검색 노출에 유리합니다. AI가 만든 자막이라 정확도도 높아서 수정할 것이 거의 없습니다. 일곱째, 워터마크를 무료로 제거할 수 있습니다. ‘Made with Vrew’ 출처 표기를 신청하면 1개월 무료 제거가 가능합니다.

촬영 0분, 이제 진짜 가능합니다

“촬영 없이 강의 영상을 만든다”는 말이 처음엔 과장처럼 들렸습니다. 직접 써보니 과장이 아니에요.

Vrew는 영상 편집 도구가 아닙니다. 기획부터 대본, 슬라이드, 목소리, 자막, 내보내기까지 이어지는 영상 제작 워크플로우 자체입니다. 편집 툴을 배우는 데 쓸 시간을 콘텐츠 기획에 쓸 수 있다는 것, 그게 핵심입니다.

물론 완벽한 도구는 아닙니다. 세밀한 타이밍 제어가 필요한 영상, 고퀄리티 트랜지션이 중요한 영상에는 한계가 있습니다. 하지만 “빠르게, 혼자서, 반복 가능하게” 만드는 것이 목표라면 Vrew만한 도구를 찾기 어렵습니다.

무료로 먼저 체험해보세요. AI 이미지 자동삽입 제한, GPT-3.5 대본 품질, 워터마크가 불편하게 느껴지기 시작하면 그때 Light 플랜(월 9,900원)을 고려하면 됩니다. 감마 AI처럼 무료로 시작해서 유료 전환 시점을 판단하는 접근이 여기서도 통합니다.

1편에서 기능을 봤고, 2편에서 실전을 해봤습니다. 이제 남은 건 하나예요. 직접 해보세요.

AI 슬라이드를 영상으로 변환하는 워크스페이스, AI generated
텍스트가 슬라이드가 되고, 슬라이드가 영상이 된다
Vrew TTS 음성으로 강의 영상 만드는 여성, AI generated
300가지 넘는 AI 음성 중에서 골라보는 재미
Vrew로 완성한 강의 영상을 확인하는 여성, AI generated
촬영 0분, 텍스트만으로 완성한 강의 영상

댓글 남기기