Kling AI

📌

Kling 비디오 2.6 체험을 환영합니다: "이젠, 화면이 들리고 소리가 보입니다."

이전에 Kling 비디오 모델은 오직 '소리 없는 화면'만 생성할 수 있었습니다. 크리에이터님들은 직접 더빙을 찾고, 사운드 효과를 조합하고, 리듬을 조절해야 했습니다. 이 과정은 단계가 많고 수정이 반복되었으며, 결과적으로 진정한 몰입감을 주는 영상을 완성하기가 어려웠습니다.

이제 새로운 '비디오 2.6 모델'이 등장했습니다. 단 한 번의 생성으로 화면, 자연스러운 음성, 매칭되는 사운드 효과, 그리고 현장 분위기까지 동시에 만들어내어, '소리'와 '화면'이라는 두 세계를 진정한 하나로 연결합니다. 한 단락의 텍스트를 입력하든 이미지 한 장을 업로드하든, 원클릭으로 소리와 리듬이 살아있는 완전한 다이내믹 비디오를 얻을 수 있어, 더 이상 번거롭게 편집하고 이어 붙일 필요가 없습니다.

기존의 '화면만 있는' 모델과 비교하여, 비디오 2.6은 전방위적인 업그레이드를 제공합니다.

더 이상 '무성 영화'는 그만, 소리가 있는 이야기를 만드세요: 화면, 음성, 사운드 효과가 한 번에 생성되며, 샷의 리듬과 소리의 감정이 긴밀하게 어우러져 콘텐츠가 단순히 '보는 것'에서 '볼 수 있다, 들을 수 있다, 몰입할 수 있다'는 경험으로 업그레이드됩니다.
소리에 대한 통제권과 디테일 결정권: 누가 말할지, 무엇을 말할지, 어떤 감정일지는 당신이 결정합니다. 배경음과 사운드 효과가 자유롭게 생성되고, 리듬의 완급과 전체적인 분위기를 정밀하게 제어하여 다양한 창작 시나리오에 완벽하게 대응합니다.
초보자도 원클릭 완성, 창작 효율 향상: 복잡한 조작 없이 텍스트나 이미지만 입력하면 시스템이 소리와 화면의 디테일을 자동으로 완성해 줍니다. 1인 크리에이터나 소규모 스튜디오도 전문가 수준의 비디오를 빠르게 제작할 수 있습니다.

1.Kling 최초 '사운드 영상 동기화' 모델 정식 출시!

'비디오 2.6 모델'에서 저희는 처음으로 '사운드 영상 동기화' 기능을 선보입니다. 단 한 번의 생성으로 비디오 화면과 완전한 오디오를 동시에 출력하며, 음성, 사운드 효과 및 배경음 등이 포함됩니다. 리듬, 감정 및 서사 표현에서 고도 조화를 이루어, 진정한 '보이는 대로 들립니다'는 시청각 경험을 실현했습니다.

이번 업그레이드에서는 다음 부분을 착안하여 강화했습니다.

사운드 및 이미지 협동: 음성 리듬, 환경음 및 화면 동작이 긴밀하게 호응하여, '화면 따로 소리 따로' 노는 듯한 이질감을 방지합니다.
오디오 품질: 사람 목소리, 사운드 효과, 배경음 등 다양한 유형의 사운드 생성을 지원하며, 음질이 더 깨끗하고 층이 풍부하여 실제 믹싱 효과에 더 가깝습니다.
시맨틱 이해: 다양한 상황에서의 텍스트 설명, 구어체 표현 및 복잡한 스토리라인에 대해 강력한 시맨틱 이해 능력을 갖추고 있어, 창작자의 의도를 더 정확하게 파악하고 요구 사항에 딱 맞는 영상과 사운드 콘텐츠를 출력합니다.

창작 워크플로우 측면에서 Kling 2.6은 "텍스트/이미지를 통한 사운드 영상 콘텐츠의 빠른 생성"이라는 핵심 니즈를 중심으로, 두 가지 효율적인 창작 경로를 제공합니다.

텍스트 생성 사운드 영상: 한 문장으로 완성되는 완벽한 사운드 영상			이미지 생성 사운드 영상: 정적인 화면이 말하게 움직이게 만드세요
텍스트를 입력하면 음성, 사운드 효과, 환경음이 포함된 비디오가 동시에 생성됩니다.			이미지/텍스트를 업로드하면 원클릭으로 사운드 영상이 바로 출력되어, 기존 이미지를 풍부한 사운드 영상 콘텐츠로 확장하는 데 적합합니다.
지원하는 오디오 유형
서술 및 내레이션	대화	노래 / 랩 (Rap)	환경 사운드 효과	물체 / 동작 사운드 효과	믹스 사운드 효과
캐릭터 말하기, 내레이션	다인 음성 대화	캐릭터가 가사에 맞춰 노래 또는 랩	장면 배경음 (예: 바람 소리, 파도 소리, 거리의 말하는 소리, 차량 흐름)	예: 유리가 깨지는 소리, 발자국 소리, 칼질 소리, 기계 굉음	음성 + 배경음 + 사물 효과 조합, 몰입형 사운드 영상 경험 형성

2. 플랫폼 기능 사용 가이드

이번 모델은 웹(Web)과 앱(App) 양쪽 모두 지원하며, 컴퓨터나 모바일 어디서든 손쉽게 비디오를 생성할 수 있습니다. 비디오의 최종 결과물은 프롬프트, 입력 이미지(이미지 생성 사운드 영상) 및 파라미터 설정에 의해 결정됩니다.

프롬프트: 표현하고자 하는 콘텐츠, 장면 및 동작을 묘사하는 데 사용됩니다.
이미지 생성 사운드 영상: 주체의 외관, 구도, 스타일 등 시각적 특징을 지정하여 생성된 비디오가 원본 이미지에 더 부합하도록 합니다.
사운드 영상 동기화 스위치: 활성화하면 비디오 생성 시 해당 오디오가 동시에 출력되어 사운드와 영상이 일체화된 결과물을 구현합니다. 비활성화하면 오디오가 없는 순수 비디오 콘텐츠만 생성됩니다.
파라미터 설정: 비디오의 생성 방식과 기본 속성을 제어합니다.

3. 비디오 2.6 모델로 무엇을 할 수 있나요?

비디오 2.6은 말하기, 대화, 내레이션, 노래, 랩, 환경 사운드 효과, 믹스 사운드 효과 등 다양한 사운드 유형을 지원합니다. 모델이 구현할 수 있는 콘텐츠를 능력 차원별로 소개하여, 2.6의 창작 범위를 빠르게 이해하실 수 있도록 도와 드리겠습니다.

📌

빠른 가이드👉 1인 독백💬, 내레이션 해설🗣️, 다자간 대화👥, 음악 공연🎵, 크리에이티브 장면🌈

3.1 1인 독백💬

능력 정의: 화면 속 인물이 카메라를 보며 직접 말하며, 감정이 자연스럽고 립싱크가 일치합니다.

적용 시나리오: 상품 쇼케이스, 라이프스타일 브이로그, 뉴스 리포팅, 연설.

상품 쇼케이스: 제품을 전시하고 셀링 포인트를 강조합니다. 핵심은 발음이 또렷하고 어조가 자연스러우며 제품의 분위기와 어울려야 한다는 점입니다.

뷰티 라이브 스트리밍 룸에서 따뜻한 노란색 조명이 테이블을 비추고 있으며, 테이블 양쪽에는 립스틱 샘플들이 진열되어 있습니다. [백인 뷰티 인플루언서]가 매트한 더스티 로즈 색 립스틱을 들어 올립니다. [백인 뷰티 인플루언서, 달콤하고 산뜻한 목소리]가 말합니다: "Perfect for yellow undertones! Brightens the complexion without drying, and the finish looks beautifully soft all day." 배경: 잔잔한 뷰티 BGM이 재생 중.

장면: 패션 라이브 스트리밍 룸에서 옷걸이에 옷들이 걸려 있으며, 전신 거울에는 호스트의 모습이 비칩니다. 다이로그: [아프리카계 미국인 여성 호스트]가 몸을 돌려 스웨트셔츠 핏을 보여줍니다. [아프리카계 미국인 여성 호스트, 활기찬 목소리]가 말합니다: "360-degree flawless cut, slimming and flattering."

곧바로 [아프리카계 미국인 여성 호스트]가 카메라 가까이로 다가옵니다. [아프리카계 미국인 여성 호스트, 생기 있는 목소리]가 말합니다: “Double-sided brushed fleece, 30 dollars off with purchase now.”

라이프스타일 브이로그: 일상의 편안하고 자연스러운 조각들을 보여줍니다.

해변에는 파도가 해안으로 부서져 밀려옵니다. 뒤로 야구 모자를 쓴 [젊은 백인 남성]이 카메라를 들고 셀카를 찍으며 입가에 미소를 짓고 있습니다. 카메라 시점은 브이로그 클로즈업 스타일입니다. [젊은 백인 남성]은 햇살 가득한 목소리로 "The weather is amazing today! All my worries feel totally gone. I've been needing a day like this—sun, breeze, just the sound of the waves."라고 말했습니다.

주방에는 오븐 문이 반쯤 열려 있고 황금빛 쉬폰 케이크가 테이블 위에 놓여 있습니다. [라틴계 소녀]가 흥분으로 눈을 반짝이며 케이크를 손으로 부드럽게 뜯습니다 (케이크 부스러기가 떨어집니다). [라틴계 소녀]는 자랑스럽고 달콤한 목소리로 "My first success. Look at that crumb!"라고 말했습니다. 배경에는 경쾌한 BGM이 재생 중입니다.

뉴스 리포팅: 전문성, 격식, 정식감, 어조를 강조합니다.

장면: 야외 쇼핑몰 앞에서 군중이 모여 환호하고 있습니다. 다이로그: [아프리카계 미국인 남성 리포터]가 마이크를 들고 군중 옆에 서서 몸을 살짝 돌립니다. [아프리카계 미국인 남성 리포터]는 안정적인 목소리로 "Now we can see the atmosphere here is absolutely electric. Let's go check it out together! There's so much happening all at once."라고 전했습니다. 배경: 활기찬 군중 소리와 이벤트 BGM이 들리며, 간간이 이벤트 클로즈업 장면이 삽입됩니다.

스포츠 뉴스 스튜디오에서 스포츠 앵커 뒤 스크린에는 농구 경기 리플레이가 나오고 있습니다. [스포츠 앵커]가 뉴스 데스크 뒤에 앉아 테이블 위를 손가락으로 가볍게 두드립니다. [스포츠 앵커]는 명확하고 힘 있는 목소리로 "Look at this clutch play! He stepped up when it mattered most, hitting the shot that decided the championship! This game-winning shot sealed the victory outright."라고 말했습니다. 배경에는 생중계 경기의 환호 소리가 들리며, 카메라가 스포츠 앵커의 얼굴에 초점을 맞춥니다.

연설: 확고하고 설득력 있는 표현을 보여줍니다.

세계 각국 대표들이 좌석을 가득 채운 국제 기술 정상 회의 메인 행사장입니다. [인도인 기업가]가 무대 중앙에 서서 청중을 침착하게 바라보며, 두 손을 자연스럽게 옆에 내리고 있습니다. [인도인 기업가]는 큰 목소리로 "A decade ago, the world saw India through call centers."라고 말했습니다. 잠시 멈춘 후, 그는 두 손을 위로 펼칩니다. [인도인 기업가]는 열정적인 목소리로 "Now, Indian innovation is reshaping the world with tech!"라고 외쳤습니다. 카메라가 인도인 기업가의 얼굴로 천천히 줌인 되고, 그가 연설을 마치자 두 손을 모아 기도하는 제스처를 취합니다. 청중은 박수갈채를 터뜨립니다.

장면: TED 스타일의 원형 무대이며, 연사가 앉아 있고 청중은 그림자 속에 가려져 있습니다. 다이로그: [연사]는 몸을 살짝 앞으로 숙이고 연단 위에 손을 가볍게 올려놓습니다. [연사]는 진심이 담긴 부드러운 목소리로 "Your biggest limitation isn't your ability; it's the story you tell yourself about your ability."라고 말했습니다. 배경에서는 청중의 가벼운 웃음소리가 이어진 후 박수가 터져 나오며, 카메라가 연사를 미드 클로즈업으로 잡고 느리고 미묘하게 줌인 합니다.

3.2내레이션 해설🗣️

능력 정의: 화면 밖의 목소리가 화면 내용을 서술, 설명, 논평합니다.

적용 시나리오: 상품 설명, 경기 해설, 다큐멘터리, 스토리텔링.

상품 설명 / 제품 소개: 정물 화면 + 전문적인 설명, 이커머스 숏 비디오에 적합합니다.

장면: 깔끔한 거실에 흰색 로봇 청소기가 중앙에 놓여 있으며 주변에는 잡동사니가 없습니다. 다이로그: [나레이터, 부드러운 여성 목소리]가 잔잔한 청소기 소리와 함께 "Are you still troubled by dust in hard-to-reach corners? This robotic vacuum features edge-to-edge cleaning, leaving no gaps behind—making your life easier and effortless!"라고 설명했습니다. 카메라가 청소기의 움직이는 경로를 근접하여 따라갑니다.

장면: 화창한 주말 아침, 거실이 빛으로 가득하며 빈티지 녹색 블루투스 스피커가 커피 테이블 위에 놓여 있습니다. 다이로그: [젊은 백인 남성]이 커피잔을 들고 스피커로 걸어가 스위치를 가볍게 탭 합니다. [젊은 백인 남성]은 편안한 목소리로 "Good morning. With 360-degree surround sound, you can enjoy rich, full music from anywhere in the room."라고 말했습니다. 말을 마친 후 젊은 남성은 걸어 나가고, 카메라는 스피커에 초점을 맞춥니다.

경기 해설: 격정적인 리듬과 경기장 분위기가 필요합니다.

장면: 월드컵 결승전 현장, 조명이 눈부시게 빛나고 관중석은 흥분으로 가득 차 함성을 지릅니다. 다이로그: (등장인물 없음, 나레이션만) 공이 골네트를 강타할 때 [나레이터, 흥분한 남성 목소리]는 "The game is over!"라고 외쳤습니다. 배경: 팬들이 환호성을 터뜨리고, 카메라는 골키퍼 시점에서 공이 골문으로 들어가는 순간을 포착합니다.

F1 경주장의 메인 관람석 앞, 경주차들이 굉음을 내며 빠르게 질주합니다. [나레이터, 흥분한 남성 목소리]는 "Final lap! He's on the inside! Oh, what a move! They are side by side to the line! Unbelievable!"라고 말했습니다. 배경: 엔진 소리와 타이어의 마찰음이 들리고, 카메라는 거의 나란히 달리는 두 대의 차량을 따라갑니다.

3.3 멀티 캐릭터 대화👥

능력 정의: 다수의 캐릭터가 상호 작용하는 대화로, 캐릭터 간의 자연스러운 어조 전환이 가능합니다.

적용 시나리오: 인터뷰 프로그램, 스토리 연기(숏 드라마), 일상 대화, 코미디 숏 드라마.

인터뷰 프로그램: 두 사람이 앉아서 진행하는 인터뷰, 어조가 자연스럽게 전환됩니다.
장면: 방음 패널로 덮인 벽돌 벽과 장비들이 깔끔하게 정리된 현대적인 인더스트리얼 스타일 녹음 스튜디오입니다. 다이로그: [백인 남성 호스트]가 마이크 앞에 앉아 몸을 약간 앞으로 숙입니다. [백인 남성 호스트]는 안정적인 목소리로 "Today we're excited to have Dr. Sarah Miller from Stanford AI Lab. Sarah, your research on neural networks is groundbreaking."라고 말했습니다. 이 동안 [아프리카계 미국인 여성 게스트]는 침묵을 유지합니다. 곧바로 [아프리카계 미국인 여성 게스트]는 마이크를 들고 턱을 살짝 올리며, 부드러운 목소리로 "Thank you for having me."라고 말했습니다. 이 동안 [백인 남성 호스트]는 침묵을 유지합니다.	로스앤젤레스에 위치한 현대적인 팟캐스트 스튜디오로, 베이지색 패브릭 소파 전체에 따뜻한 노란색 필터가 감돕니다. [백인 여성 호스트]가 카메라를 보며 손가락을 소파 팔걸이에 가볍게 올려놓습니다. [백인 여성 호스트]는 달콤한 목소리로 "The Santorini sunset in Greece is absolutely breathtaking! Highly recommend adding it to your bucket list."라고 말했습니다. 이 동안 [아프리카계 미국인 남성 호스트]는 침묵을 유지합니다. 곧바로 [아프리카계 미국인 남성 호스트]는 고개를 살짝 끄덕이며, 부드러운 목소리로 "Exactly, that's the perfect spot to unwind and escape the daily grind."라고 동의했습니다. 이 동안 [백인 여성 호스트]는 침묵을 유지합니다. 카메라는 백인 여성 호스트와 아프리카계 미국인 남성 호스트 간의 상호작용에 초점을 맞춥니다.
스토리 연기 (숏 드라마): 단편 스토리 및 감정적인 대화에 사용됩니다.
장면: 조명이 어둑한 카지노 VIP 룸 중앙에는 녹색 펠트 포커 테이블이 놓여 있고, 주변에는 담배 연기가 희미하게 피어오르고 있습니다. 벽 램프는 따뜻하고 실루엣 같은 빛을 비춥니다.다이로그: [정장을 입은 남자]는 테이블에 팔꿈치를 대고 몸을 앞으로 숙인 채, 낮은 목소리로 "Three rounds to decide. Win, and all the chips are yours. Lose, and tell me the real reason you're getting close to him."라고 말했습니다. [곱슬머리 여자]는 손가락으로 테이블 모서리를 부드럽게 쓰다듬고, 붉은 입술을 희미하게 말아 올리며, 시원하고 매혹적인 여성의 목소리로 "I don't care about the chips."고 대답했습니다.	혹한의 황야입니다. 탐험가들이 장작에 불을 피우고 있으며, 장작이 타닥타닥 소리를 냅니다. [탐험가 A]는 지쳤지만 단호한 목소리로 "The fire is lit."라고 말했습니다. 곧바로 [탐험가 B]가 희망에 찬 목소리로 "We're saved!"라고 소리쳤습니다. 사운드 효과: 타오르는 불꽃 소리, 멀리서 들려오는 늑대 울음소리, 매서운 바람이 스쳐 지나가는 소리.
일상 대화: 편안하고 자연스러우며 구어체 위주입니다.
장면: 뉴욕 오피스 빌딩의 사무 공간, 차가운 톤의 조명이 작업 공간을 비추고 프린터가 작동 중입니다. 다이로그: [외국인 남성 직원]과 [외국인 여성 직원]이 프린터 옆에 서서 서로 마주 보고 있습니다. [외국인 남성 직원]은 차분한 목소리로 "How's the project report coming along? Manager needs it this afternoon."라고 물었습니다. 이 동안 [외국인 여성 직원]은 침묵을 유지합니다. 곧바로 [외국인 여성 직원]은 능률적인 목소리로 "Almost done. I'll send it in 10 minutes."라고 대답했습니다. 이 동안 [외국인 남성 직원]은 침묵을 유지합니다. 카메라는 프린터 소리와 사무실 배경 소음과 함께 두 사람의 상호 작용에 초점을 맞춥니다.	아침의 주방, 햇빛이 창문을 통해 조리대 위로 쏟아지고 있으며 프라이팬이 지글거리는 소리를 냅니다. [남자친구]가 새까맣게 탄 계란 프라이를 테이블에 올려놓고 자랑스럽게 눈썹을 치켜 올립니다. [남자친구]는 쾌활한 목소리로 ""Try my breakfast made with love!"라고 권했습니다. 이 동안 [여자친구]는 침묵을 유지합니다. 곧바로 [여자친구]는 몸을 숙여 가볍게 냄새를 맡고 눈썹을 치켜 올리며, 장난기 가득한 목소리로 "The love is definitely felt, it's just a bit burnt."라고 말했습니다. 이 동안 [남자친구]는 침묵을 유지합니다. 그런 다음, 두 사람은 눈을 마주치고 함께 미소를 지으며 "It's just a bit burnt."라고 동시에 말합니다. 카메라는 계란 프라이의 클로즈업에서 [남자친구와 여자친구]가 미소를 나누는 모습으로 전환됩니다.
코미디 숏 드라마: 빠른 템포와 강한 반전.
장면: 코미디 무대, 스포트라이트가 중앙에 집중되어 있고 청중은 그림자 속에 있습니다. 다이로그: [스탠드업 코미디언]이 무대에서 마이크를 들고 몸을 살짝 흔듭니다. [스탠드업 코미디언]은 유머러스한 남성 목소리로 "My gym trainer said the first step is the hardest... Lies! The first step is easy. It's the 5,000th step that's trying to murder you!"라고 말했습니다. 말을 마친 후, 코미디언은 어깨를 으쓱하고 두 손을 들어 올립니다. 배경: 청중의 웃음과 박수 소리가 들리며, 카메라는 코미디언의 얼굴에 초점을 맞춥니다.	장면: 벚꽃 광장, 분홍색 꽃잎이 떨어지고 분수대 근처에는 희미한 폐허가 보입니다. 다이로그: [핑크 메카 걸]이 에너지 날개를 펼치며 (큰 경보음이 울림), 급히 자신의 제어 화면을 내려다봅니다. [핑크 메카 걸]은 당황한 목소리로 ""Oh no, only five percent battery left!"고 외쳤습니다. 곧바로 핑크 메카 걸은 분수대 근처에 착륙하여 허둥지둥 보조 배터리를 연결하고 거대한 괴물을 힐끗 바라봅니다. [핑크 메카 걸]은 당황스러운 목소리로 "Um, could you please wait while I recharge?"라고 물었습니다. 거대한 괴물은 고개를 갸웃거리며 혼란스러운 낮은 으르렁거리는 소리를 내고, 발톱을 거두고 폐허에 앉습니다. 카메라는 핑크 메카 걸의 다급한 움직임에 초점을 맞춥니다.

3.4 음악 공연🎵

노래

장면: 햇볕이 드는 정원 길, 데이지꽃이 만개하고 나비들이 부드럽게 날아다닙니다. 다이로그: [아시아계 여성]이 느슨하게 땋은 머리를 하고 꽃무늬 드레스를 입은 채 데이지꽃을 스치며 천천히 걷습니다. [아시아계 여성]은 부드러운 목소리로 ""In this tranquil morning, I've found my way. With dreams in my heart, there's light in my days."라고 노래했습니다. 아시아계 여성은 꽃을 스치기 위해 손을 내밀고, 하얀 나비 한 마리가 놀라 날아갑니다.

장면: 파란 조명에 잠긴 라이브 하우스, 중앙에는 높은 바 스툴이 놓여 있고 청중은 그림자 속에 가려져 있습니다. 다이로그: [짧은 머리 여성 가수]가 높은 바 스툴에 앉아 통기타를 안고 현을 부드럽게 연주합니다. [짧은 머리 여성 가수]는 진심이 담긴 목소리로 "And I will try to fix you, all night long..."라고 노래했습니다. 그녀가 후렴구에 도달했을 때, [짧은 머리 여성 가수]는 청중을 향해 바라봅니다.

배경: 잔 부딪히는 소리가 들립니다. 카메라는 짧은 머리 여성 가수의 기타 현을 짚는 손가락과 얼굴 표정을 번갈아 가며 초점을 맞춥니다.

랩 퍼포먼스 (Rap)

장면: 뉴욕 브루클린 – 그래피티로 뒤덮인 벽 앞에서 거리의 분위기가 강렬하며, 브레이크 댄서들이 근처에서 프리스타일 춤을 추고 있습니다.
주체: [아프리카계 미국인 래퍼]는 금 목걸이와 오버사이즈 후드티를 입고 카메라를 바라보며 비트에 맞춰 몸을 흔듭니다.

오디오: [아프리카계 미국인 래퍼]는 에너지가 넘치는 남성 목소리로 드럼 비트에 맞춰 "Yeah, from the bottom to the top, I’m shining bright like a star. Brooklyn streets raised me tough, fought through the dark. Gold chain swingin’, flow hits hard, grindin’ daily, never bored. Now I’m livin’ in the light, this is my life, raw and hardcore!"라고 랩했습니다.

배경: 깊은 베이스와 턴테이블 스크래치 소리가 겹쳐집니다. 카메라는 그의 얼굴 표정, 손짓, 브레이크 댄서들을 클로즈업하며 빠르게 전환됩니다.

거리 무대, 관객들이 주변에 서 있습니다. [젊은 래퍼]는 은색 체인과 검은색 후드티를 입고 비트에 맞춰 몸을 흔듭니다.

[젊은 래퍼]는 역동적인 남성 목소리로 "Yo, pavement to stage, flow lit, crowd goin’ wild! Mic in my grip, dreams unchained, let the rhythm ride! Raw vibe, sharp rhymes, keep the energy high—this is how we fly, no need to deny! Grind hard, spit fire, make the moment mine, street-born rhythm, let times shine!"라고 랩했습니다. 카메라는 젊은 백인 래퍼의 움직임에 초점을 맞춥니다.

그룹 합창

밝은 합주실, 창문을 통해 햇살이 쏟아지고 방 중앙에는 스탠딩 마이크가 놓여 있습니다. [캠퍼스 밴드 여성 보컬]이 눈을 감고 마이크 앞에 서 있고, 다른 멤버들은 그녀 주위에 서 있습니다. [캠퍼스 밴드 여성 보컬]은 풍부한 목소리로 "I will try to fix you, with all my heart and soul..."라고 리드하여 노래했습니다. 배경에는 아카펠라 하모니가 깔리고, 카메라는 밴드 멤버들 주위를 천천히 돌며 촬영합니다.

대학교 석양 옥상, 지는 해의 황금빛 노을이 지면을 감싸고 있습니다. [아시아계 남녀 대학생]들이 둘러앉아 통기타를 치고 있으며, 표정은 깊이 몰입되어 있습니다. [아시아계 남녀 대학생]들은 젊은 목소리로 합창하며 "Starlight all over the sky, please light the way ahead; let our youthful voices sail away with the wind."라고 노래했습니다. 카메라가 각 사람의 얼굴을 천천히 돌며 촬영하고, 기타 현은 석양빛에 황금색으로 빛납니다.

악기 연주

전통 서재, 벽에는 두루마리 그림이 걸려 있고, 책상 위에는 거문고가 놓여 있으며 부드러운 빛이 감돕니다. [선비]가 책상에 조용히 앉아 손가락 끝으로 거문고 줄을 부드럽게 뜯고 있으며, 표정은 평온합니다. 배경: 두루마리 넘기는 소리와 거문고의 선율이 흐릅니다. 카메라는 선비가 줄을 뜯는 손가락에 초점을 맞춥니다.

장면: 네온사인이 비추는 비 내리는 밤거리, 빗방울이 땅으로 떨어집니다. [첼리스트]가 가로등 아래에 서서 머리끝에 빗방울을 맞으며 첼로를 연주합니다. 배경: 느리고 감성적인 첼로 독주곡이 흐릅니다. 카메라는 첼로 현 위에서 떨리는 물방울과 [첼리스트]의 감은 눈에 초점을 맞춥니다.

3.5 크리에이티브 장면🌈

영화 및 영상 특수 효과

장면: 아늑한 거실, 벽난로에서는 장작이 타고 있고 소파가 커피 테이블 옆에 놓여 있습니다. [남자 주인공]이 거실로 들어와 말을 합니다. 다이로그: [남자 주인공]은 부드러운 목소리로 "Babe, taking a break from work?"라고 물었습니다. 이 동안 [여자 주인공]은 침묵한 채 미소를 지으며 고개를 끄덕입니다. 곧바로 남자 주인공은 소파로 걸어가 잔을 부드럽게 내려놓고 여자 주인공의 머리를 쓰다듬기 위해 손을 내밉니다. 카메라는 두 사람의 상호 작용에 초점을 맞춥니다.

높이 솟은 얼음 조형물이 있는 남극 장면, 전반적인 톤은 차갑고 하얀 혹한의 색채입니다. 거대한 소리와 함께 빙하가 갈라지고, 뒤이어 얼음이 깨지는 소리가 나며 연구팀 스노모빌의 엔진 소리가 요란하게 울립니다. 카메라는 후퇴하는 연구팀과 무너지는 얼음 탑을 따라갑니다.

일상생활 분위기

오후의 방, 블라인드를 통해 햇빛이 걸러져 바닥에 줄무늬 모양의 빛 반점들을 만듭니다. [황갈색 고양이] 한 마리가 창가에 누워 있습니다. [황갈색 고양이]는 느리게 숨을 쉬고 있으며, 배경에는 멀리서 새 소리와 나뭇잎 바스락거리는 소리가 들립니다. 카메라는 고양이의 숨결에 따라 움직이는 빛 반점들에 초점을 맞춥니다.

심야 식당 장면, 카운터 조명만 켜져 있고 TV에서는 "자정 공원을 헤매는 남자"라는 제목의 장면이 나옵니다. [아프리카계 미국인 주인]이 TV를 바라봅니다. [아프리카계 미국인 주인]은 깊은 목소리로 "I wonder who needs help this time?"라고 말했습니다. 아프리카계 미국인 주인은 잠시 TV를 응시한 후 표정이 부드러워집니다. [아프리카계 미국인 주인]은 다정한 목소리로 ""I see. It's a father carrying his daughter in his heart."라고 말했습니다. 카메라는 아프리카계 미국인 주인의 얼굴과 TV 화면을 번갈아 가며 초점을 맞춥니다.

ASMR

장면: 밤의 도서관 복원실, 따뜻한 스탠드 조명이 고서를 비추고 복원가는 흰 장갑을 착용하고 있습니다. 다이로그: [책 복원가]가 부드러운 붓으로 고서의 표면을 살짝 쓸어내리며 (미묘한 붓 소리와 함께), 붓을 마이크에 가까이 가져갑니다. [책 복원가]는 속삭이는 목소리로 "These pages have been asleep for two hundred years. Today, we wake them gently."라고 말했습니다. 배경에는 책장이 부드럽게 바스락거리는 소리가 들리고, 카메라는 청소 동작에 초점을 맞춥니다.

깔끔한 라이브 스트리밍 데스크, 수정 유리잔과 나무 블록 같은 소품들이 깔끔하게 정리되어 있습니다. 메이크업 브러시가 수정 유리잔과 나무 블록 위를 가볍게 쓸어내리며 "shh-shh" 소리를 냅니다. 카메라는 소품들과 동작의 디테일에 초점을 맞춥니다.

크리에이티브 광고 / 소재

장면: 제품 디스플레이 장면, 단순하고 밝은 배경 중앙에 [건포도]가 놓여 있습니다. 다이로그: [건포도]가 비틀리며 수분을 공급받아 통통한 청포도로 변합니다. [화면 밖의 목소리, 산뜻한 여성 목소리]는 "Don't want to end up shriveled like I was? Hydrating face cream quenches your skin's thirst and turns back time."라고 말했습니다. 배경: 물이 튀는 소리가 들리고, 카메라는 뒤로 물러나 수분 크림을 보여줍니다.

장면 설명: 영화 같은 비 오는 날 카페 장면, 창문에 비가 튀고 있으며 전반적으로 차가운 청록색 톤입니다. [금발의 프랑스 여성]이 걸어 들어와 앉으며 머리가 살짝 젖은 채 카메라를 정면으로 응시합니다.

[금발의 프랑스 여성]은 낮은 목소리로 "You don't remember the moment, you just remember the feeling."라고 말했습니다. 그 후 카메라는 중앙에 나타난 황금색 향수병에 초점을 맞추고, 금발 프랑스 여성의 얼굴로 줌인합니다.

4. 좋은 프롬프트 작성법

'비디오 2.6 모델'을 사용할 때, [보고 싶은 화면] + [발생하는 동작] + [원하는 소리]만 작성하면 고품질의 사운드 영상을 바로 생성할 수 있습니다. 다음 공식을 참고하세요:

💡

프롬프트 = 장면 (장면 묘사) + 주체 (주체 묘사) + 움직임 (움직임 묘사) + 오디오 (대화 / 노래 / 사운드 효과 / 순수 음악) + 기타 (스타일 / 감정 / 카메라)

대화: 캐릭터 태그 + "문장" + 감정 + 말하기 속도 + 음색
단일 캐릭터: 소리 속성을 명확히 함 ([남자가 말하길], "문장" + 낮게 + 빠르게).
다중 캐릭터: 명확한 태그로 구분, 예: [A 캐릭터, 분노하며 말함] "문장" [B 캐릭터, 차분하게 대답함]"문장".
노래: "가사 내용" + 가창 스타일 + 반주 묘사 + 감정
스타일: 팝(Pop), 성악/오페라(Opera), 컨트리(Country) 등.
감정/기교: 고음으로 노래(High-pitched), 비브라토(Vibrato), 부드럽게 노래.
랩(Rap): "문장 (라임)" + 리듬 장르 + 감정
리듬 장르: 강렬한 붐뱁(Boom Bap) 리듬, 트랩 스타일 비트(Trap Style Beat), 빠른 플로우(Flow).
내용: "문장"은 라임(Rhyme)과 박자(Meter)를 구현해야 함.
사운드 효과: 소리 출처 (동작/사물) + 상태 + 전문 의성어
구조: [사물: 나무 문] 세게 [동작: 닫다] + [의성어: 쾅].
재질/ 상태: 유리가 깨지는, 금속이 부딪히는, 귀를 찌르는 브레이크.
환경음: 장면 + 소리 구성 요소 + 공간 잔향
요소: 빗소리, 벌레 울음소리, 군중의 속삭임, 차량 흐름.
공간감: 텅 빈 강당의 메아리(Reverb), 좁은 실내 잔향(Small Room Acoustic).
순수 음악: 악기 유형 + 음악 장르 + 감정
구조: 피아노 연주 + 재즈(Jazz) + 우울한(Melancholy).
장르: 클래식(Classical), 록(Rock), 일렉트로닉(Electronic).

*프롬프트 작성 시 따옴표 " "를 사용하여 소리 내용을 명확히 하는 것을 권장합니다.

4.1 핵심 튜터리얼 —— 다중 캐릭터 대화 프롬프트 예시

패러다임	핵심 원칙	작성 요건 및 예시	잘못된 예시 (모델 실패 가능성 높음)
P1. 구조화된 명명	캐릭터 태그는 반드시 유일하고 일관되어야 합니다.	[캐릭터 A: 검은 옷의 요원] 및 [캐릭터 B: 여성 조수]. ❌ 대명사나 유의어 사용을 피하세요.	[요원]이 말합니다... 그 후, 그가 또 말합니다...
P2. 시각적 앵커링	대사를 해당 캐릭터의 고유한 동작과 연결하세요.	동작을 먼저 묘사하고 대사를 이어 적으세요: 검은 옷의 요원이 테이블을 세게 내리칩니다. [검은 옷의 요원, 분노하며 소리침]: "진실이 어디 있어?"	[검은 옷의 요원]: "진실이 어디 있어?" (모델은 누가 테이블을 치는지 모름)
P3. 오디오 디테일	각 캐릭터에게 고유한 음색과 감정 태그를 부여하세요.	[검은 옷의 요원, 쉰 목소리, 낮게 깔림]: "움직이지 마." [여성 조수, 맑은 목소리, 공포]: "무서워요."	[남자]가 말합니다... [여자]가 말합니다... (목소리 특징이 너무 모호하여 혼동하기 쉬움)
P4. 시점 제어	명확한 연결사를 사용하여 말하는 순서와 리듬을 제어하세요.	[검은 옷의 요원]: "왜지?" 이어서 바로, [여성 조수]: "시간이 됐으니까." ⚠️(선택적 강제 제약: 두 사람 사이에 "이때 화자 전환" 삽입)	[검은 옷의 요원]: "왜지?" [여성 조수]: "시간이 됐으니까." (모델이 한 사람의 연속된 음성으로 생성하기 쉬움)

4.2 자주 사용하는 오디오 트리거 단어

오디오 유형	카테고리	트리거 단어 (Trigger Words)	예시
음성 (Voice)	표현 방식	말하다, 묻다, 말해줘, 설명하다, 탄식하다, 낭송하다, 독백, 내레이션, 속삭이다	한 남자가 책상에 앉아, 다른 사람에게 차분하게 말하고있다. 한 아이가 정원에 서서, 호기심 어린 말투로 질문한다. 노인 한 명이 벽난로가에 앉아, 천천히 자신의 과거 경험을 이야기해 준다.
	감정/태도	작게 말하다, 소곤거리다, 격앙되어 말하다, 진지하게 말하다, 다정하게 말하다, 정중하게 말하다, 불평하다, 망설이며 말하다, 침착하게 말하다, 비꼬며 말하다, 격려하며 말하다	붐비는 방에서 두 친구가 가까이 붙어, 비밀을 작게 말한다. 조용한 도서관에서 한 학생이 휴대폰에 대고 소곤거린다. 시상식에서 수상자가 트로피를 높이 들고, 격앙된 목소리로 소감을 말한다.
	목소리 특징	쉰 목소리, 또렷한, 떨리는, 달콤한, 낮게 깔린, 빠른 말투, 느린 말투, 뚝뚝 끊기는	한 환자가 깨어나, 쉰 목소리로 도움을 요청한다. 라디오 방송국, 아나운서가 또렷한 목소리로 뉴스를 보도한다. 한 아이가 찬 바람 속에 서서, 떨리는 목소리로 엄마를 부른다.
대화 (Dialogue)	상호 작용	묻다, 대답하다, 이어서 말하다, 반응하다, 말다툼하다, 토론하다, 협상하다, 위로하다, 설득하다	카페에 있는 두 친구, 한 명이 다른 한 명에게 사적인 질문을 한다. 면접관이 질문하자, 면접자가 즉시 대답했다. 한 사람이 이야기를 하다가 중단되자, 잠시 후 결말을 이어서 말한다.
대화 (Dialogue)	동작음	외치다, 불평하다, 농담하다, 재치 있게 말하다, 투덜대다, 소리치다, 울다/흐느끼다, 비명 지르다, 크게 웃다/키득거리다, 한숨 쉬다	한 아버지가 문가에 서서, 마당에서 노는 아이를 큰 소리로 부른다. 두 이웃이 복도에 서서, 방음이 안 된다고 서로 불평한다. 한 부부가 부엌에서 감정이 격해져 말다툼한다.
노래 (Singing)	기교/스타일	무반주 노래, 나직이 노래하다, 흥얼거리다, 소리 높여 부르다, 성악/벨칸토, 팝 창법, 비브라토/바이브레이션, 가성, 화음	한 가수가 무대 중앙에 서서 반주 없이 노래의 첫 소절을 무반주로 부른다. 한 소녀가 침대에 누워 눈을 감고 자장가를 나직이 부른다. 한 요리사가 주방에서 요리하며 즐겁게 멜로디를 흥얼거린다.
노래 (Singing)	감정/상태	격정적으로 노래하다, 부드럽게 노래하다, 우울하게 노래하다, 즐겁게 노래하다, 음이탈/음치	오페라 가수가 클라이맥스 부분에서, 격정적으로 고음을 노래한다. 포크 가수가 기타를 안고, 부드럽게 사랑 노래를 부른다. 소프라노가 화려한 의상을 입고, 성악 발성으로 노래한다.
랩 (Rap)	전문 용어	랩, 힙합/설창, 리듬감, 라임, 플로우, 빠른, 느린, 강렬한 비트, 프리스타일, 묵직한 베이스, 속사포	거리의 래퍼 한 명이 네온사인 아래에서 랩을 한다. 한 젊은이가 거리 공연에서 자신의 랩실력을 뽐낸다. 한 래퍼가 강렬한 드럼 비트에 맞춰 엄청난 리듬감을 보여준다.
사운드 효과 (Sound Effects)	일상 동작	뚜껑 여는 소리, 물 따르는 소리, 책 넘기는 소리, 두드리는 소리, 떨어지는 소리, 찢는 소리, 집어 드는 소리, 내려놓는 소리, 클릭/터, 씹는 소리), 삼키는 소리, 발자국 소리, 급한 달리기 소리, 문 여닫는 소리	클로즈업: 한 사람이 탄산음료 병의 뚜껑을 따는 소리. 손이 주전자를 들고 유리잔에 물을 따른다. 조용한 도서관에서 한 사람이 빠르게 책장을 넘기는 소리.
	재질/충돌	띵/챙, 탁, 딸깍, 쿵, 쾅, 바삭/아작, 마찰 소리, 긁는 소리, 유리 깨지는 소리, 금속 부딪히는 소리	유리잔이 금속 숟가락에 살짝 부딪혀 챙 하는 소리가 난다. 큰 두 손이 빠르게 탁 하고 합쳐지며 박수를 친다. 열쇠를 자물쇠에 넣고 돌릴 때 딸깍 소리가 난다.
	자연의 소리	콸콸/졸졸, 휘잉/쌩쌩, 타닥타닥, 보글보글, 천둥, 빗방울, 폭풍우 눈 밟는 소리	시냇물이 돌 사이로 흐르며 졸졸 소리를 낸다. 거센 바람이 골짜기를 불어 지나가며 휘잉 소리를 낸다. 모닥불이 타오르며 타닥타닥 타는 소리를 낸다.
	기계음	굉음/부릉, 똑똑, 윙, 덜컹/딸깍, 시동 소리, 사이렌/경보, 브레이크, 기계 작동/기어 소리	스포츠카 한 대가 도로 위에서 굉음을 내며 가속한다. 낡은 수도꼭지에서 물이 계속 똑똑 떨어진다. 거대한 벌 한 마리가 날아와 윙윙거리는 진동 소리를 낸다.
	악기 소리	피아노 소리, 기타 줄 튕기는 소리, 바이올린, 드럼 비트, 더블 베이스/베이스	연주자가 콘서트홀에서 피아노를 연주하고 있다. 거리 예술가가 가볍게 기타 줄을 튕기는 소리. 연주자가 유려한 바이올린 독주를 하고 있다.
환경음 (Ambient Sound)	도시	차량 흐름, 군중의 웅성거림, 지하철, 쇼핑몰 안내 방송, 거리의 바람 소리, 공사 소리, 비행기 소리, 경적, 시장 소음	분주한 교차로에서 끊임없는 차량 흐름소음. 박물관 배경에서 들려오는 미세한 군중의 웅성거림. 지하철 열차가 역에 진입하고 출발하는 지하철 소음.
	자연	파도, 바람 소리, 새소리, 벌레 소리, 계곡물, 폭포 소리, 동물 울부짖음, 밤벌레 소리, 열대우림	이른 아침 모래사장, 잔잔한 파도 소리가 들려온다. 탁 트인 평원, 오직 휘몰아치는 바람 소리뿐이다. 이른 아침 숲속, 다양한 새소리가 여기저기서 들린다.
	실내	에어컨 소리,키보드 소리, 종이 넘기는 소리, 미세한 잔향, 바/카페 BGM, 병원 복도, 도서관 정적, 난로 불 타는 소리	조용한 사무실 안, 지속적이고 낮은 에어컨 소리만 들린다. 프로그래머가 심야에 작업 중이며, 빠른 키보드 소리만 들린다. 도서관 사서가 책을 정리하며 종이 스치는 소리를 낸다.

5. 비디오 2.6「음색 제어」 기능 신규 추가!

5.1 기능 소개

연속적인 창작이나 캐릭터 더빙 시 음색이 통일되지 않거나 개성이 부족해 고민한 적이 있으신가요? 「Kling 비디오 2.6 모델」에 「음색 제어」 기능이 추가되었습니다! 목표 음색을 선택하기만 하면 모델이 해당 음색을 정밀하게 복제하여 지정된 콘텐츠를 연기합니다. 조작도 매우 간단하여, "화면 내용 + 사운드 텍스트 + 목표 음색" 세 가지 핵심 정보만 제공하면 이상적인 오디오 및 비디오 콘텐츠를 빠르게 생성할 수 있습니다.

음색 제어 기능이 추가됨에 따라 다음과 같은 작업이 가능해집니다:

안정적인 고충실도 음색: 영상 전체에서 음색이 안정적으로 출력되며 목표 음색을 완벽하게 재현합니다. IP 캐릭터, 브랜드 이미지 등의 장기적인 음색 통일성을 지원합니다.
말하기 스타일 유연한 전이: 동일한 음색으로 뉴스 보도, 대화, 연설 등 다양한 상황에 사용할 수 있으며, 해당 어조와 리듬에 자동으로 적응합니다.
자연스러운 다국어 호환: 별도의 설정 없이 중국어 음색으로 영어 대사를 자연스럽게 연기할 수 있습니다(반대의 경우도 가능). 현재 중-영 양방향 호환을 이미 지원하고 있습니다.
지시 기반의 정밀 바인딩: 프롬프트 입력 시「캐릭터 @음색명」 의 간결한 지시를 사용하면 모델이 자동으로 음색을 해당 캐릭터에 바인딩하여, 다중 캐릭터 대화에서의 음색 구분을 손쉽게 구현합니다.

동시에 「음색 제어」 기능은 다양한 창작 장면에 적용할 수 있습니다:

가상 캐릭터 전용 음색

상품 전시 및 설명

다중 캐릭터 음색 제어

콘텐츠 내레이션 및 연기

5.2 플랫폼 기능 사용 가이드

기능을 사용하시기 전에, 입력하는 콘텐츠 및 [음색 제어] 기능 사용 기간 동안 게시하는 오디오는 직접 창작했거나 합법적인 권한을 획득했음을 확인하셔야 합니다.

Kling 비디오 2.6의 음색 제어 기능은 웹(Web)과 앱(APP)에 동시 출시되었으며, 현재 【이미지 생성 사운드과 영상】에서 사용할 수 있습니다(【텍스트 생성 사운드과 영상】는 아직 미오픈). 아래에서는 전용 음색 만든 방법과 음색 제어의 효율적인 사용 팁을 소개해 드립니다.

전용 음색 만든 방법：

목표 음색 호출 방법:

5.3 음색 제어 프롬프트 튜토리얼

프롬프트 공식 = 배경(장면 묘사) + 【주체(주체 묘사)@음색명】 + 동작(동작 묘사) + 오디오(대화 / 노래 / 효과음 / 배경음악) + 기타(스타일 / 감정 / 카메라 앵글)

권장 작성 형식:

비권장 작성 형식:

다음과 같은 작성 형식은 피해주세요. 모델이 음색 바인딩 관계를 올바르게 식별하지 못해 음색 적용에 오류가 발생할 수 있습니다.

오류 유형	프롬프트 형식	예시
캐릭터 주체 누락, 음색을 주체로 직접 사용	@음색 : "대사 내용."	일기예보 방송 장면, [@여성 내레이션 음색] 차분하게 보도: "오늘의 날씨 예보를 시청해 주셔서 감사합니다."
다중 캐릭터가 동일 음색 중복 바인딩	[캐릭터 A] @음색 1. [캐릭터 B] @음색 1.	경비 초소 근무 장면, [경비원 A@내 대학 동기 음색] 낮은 목소리로 보고: "정문은 이미 잠갔습니다." [경비원 B@내 대학 동기 음색] 고개 끄덕이며 확인: "문제없어, 모두 안전해." 전체적으로 차분하고 엄격한 스타일, 두 사람의 근무 대화 상태를 포착한 근경 샷.
음색 표기 위치 오류	[A]: "대사 A." [B]: "대사 B." @음색 [A]: "대사 A." [B]: "대사 B." @음색을 [B]에게 바인딩 @음색. [캐릭터] : "대사 내용."	집안 일상 대화 장면, [남자]: "어디 갔었어?" 이때 화자가 전환되며 [여자]: "산책 좀 다녀왔어." @나의 음색. 경비 초소 근무 장면, [경비원 1]: "네." [경비원 2]: "알겠습니다." @음색을 [경비원 1]에게 바인딩. 거리 랩 배틀 장면, @래퍼 A의 음색. [젊은이]: "거리는 잠들지 않아, 리듬은 멈추지 않아." 전체적으로 쿨하고 힙한 스타일, 배경에는 거리의 차 소리와 가벼운 드럼 비트.
음색 표기가 대사 속에 포함됨	[캐릭터]: "대사 내용. @음색" [A]: "첫 번째 문장, @음색." 이때 화자가 전환되며 [B]: "두 번째 문장."	[주인공]: "난 결정했어 @나의 음색, 여길 떠나기로." 전체적으로 단호하고 내성적인 스타일, 근경 클로즈업 샷, 배경음은 완만한 숨소리. 가족 이별 장면, [아버지]: "정말 갈 거니, @나의 음색." 이때 화자가 전환되며 [딸]: "네, 이게 제 결정이에요." 전체적으로 슬프고 아쉬운 스타일, 배경음은 낮은 실내 환경음.
시각적 동작 / 비인격체 소리에 음색 바인딩	@음색 [시각적 동작], [캐릭터]: "대사." [비인격체 대상] @음색, [캐릭터]: "대사."	실내 대치 장면, [@철수의 음색] 천천히 방으로 걸어 들어오며, [남자]: "당신 누구야?" 측면 샷, 배경에 가벼운 발자국 소리. 경찰 추격 장면, 효과음: [경찰차 사이렌 소리@나의 음색] 윙윙 울리고, [경관]: "거의 다 왔어." 전체적으로 긴장되고 급박한 스타일, 팔로우 샷, 배경음에 타이어 마찰음 추가.
무효 바인딩 (말하지 않는 캐릭터에 바인딩 / 속성 충돌)	[A]: "대사 A." 【지시: [B]에게 바인딩】 (B는 말하지 않음) [시각적 속성과 충돌하는 캐릭터] @음색속성 : "대사."	의류 매장 일상 장면, [주인공]: "이 옷 정말 괜찮네." [침묵하는 점원] 그를 바라본다. [@내 동료의 음색]을 [침묵하는 점원]에게 바인딩. 실내 심문 장면, [건장한 체격의 남자@날카로운 여자 아이 목소리]: "너희들은 날 잡았어." 전체적으로 미스터리하고 반전 있는 스타일, 근경 샷.

6. 비디오 2.6 모델 가격

「비디오 2.6 모델」의 가격 정책은 다음과 같습니다:

1）사운드 영상 동기화 켜기: 10크레딧/초 (고품질)

음색 제어 추가 사용 시: +2크레딧/초 (멤버십은 음색 제어 무제한 무료 사용)

2）사운드 영상 동기화 끄기: 5크레딧/초 (고품질), 3크레딧/초 (표)

7. FAQ

Q: 현재 모델은 어떤 언어의 음성 출력을 지원하나요?

현재 모델은 중국어와 영어 음성 출력만 지원합니다. 다른 언어를 입력하시면 자동으로 영어로 번역하여 음성을 생성하며, 전체적인 사용 경험에는 영향을 미치지 않습니다. 더 많은 언어의 음성 출력을 지원하기 위해 박차를 가하고 있으니, 곧 만나보실 수 있습니다~

Q: 비디오 없이 오디오만 생성할 수 있나요?

네, 가능합니다! 플랫폼의 【사운드 효과 생성】 모듈로 이동하여 필요에 따라 【텍스트 생성 사운드 효과】 또는 **【비디오 생성 사운드 효과】**를 선택할 수 있습니다.
- 텍스트 설명을 입력하여 독립적인 오디오를 생성하거나,
- 비디오를 업로드하여 사운드 효과를 추출할 수 있습니다.
- 비디오 생성 없이 순수 오디오 창작 니즈를 충족할 수 있습니다.

Q: 생성 결과를 어떻게 향상시킬 수 있나요?

더 나은 생성 결과를 얻으려면 다음 측면에서 최적화하는 것을 권장합니다.
- 프롬프트 최적화: 설명을 명확하고 구체적으로 유지하고 장면, 사운드 효과 유형, 스타일 등 핵심 요소를 명시하세요. 한 번에 너무 많은 복잡한 지시를 넣는 것을 피하고, 항목별로 나누어 묘사하는 것이 좋습니다.
- 이미지와 텍스트 매칭 강화: 레퍼런스를 사용하는 경우, 이미지 내용이 텍스트 설명과 일치하는지 확인하세요. 예를 들어 "야외 캠핑"을 묘사할 때, 레퍼런스로 실내 사진을 사용하는 것을 피하여 정보의 모순을 줄이세요.
- 정밀한 파라미터 설정: 실제 필요에 따라 비디오 길이, 해상도 등 파라미터를 조정하여 기본 설정이 기대에 어긋나는 것을 방지하세요.
- 창작 시나리오 단순화: 한 번의 창작 시 가급적 하나의 핵심 주제에 집중하고, 너무 많은 요소를 쌓아 올리지 마세요(예: 여러 환경음 + 복잡한 음성을 동시에 추가). 그래야 모델이 이상적인 콘텐츠를 더 안정적으로 생성할 수 있습니다.

텍스트 생성 사운드 영상 - 조작 인터페이스		이미지 생성 사운드 영상 - 조작 인터페이스

파라미터 설정
비디오 길이: 5s, 10s 비디오 비율: 16:9, 1:1, 9:16 비디오 개수: 한 번에 최대 4개		비디오 길이: 5s, 10s 비디오 개수: 한 번에 최대 4개
주의 사항
현재 모델은 중국어/영어 음성 출력을 지원합니다. 다른 언어를 입력할 경우, 모델이 자동으로 영어로 번역하여 음성을 생성하며, 이는 비디오의 전체적인 생성 결과에는 영향을 미치지 않습니다. 영어 음성 출력 시나리오에서는 가급적 영어 단어를 소문자로 입력해 주시고, 두문자어(Acronym)로 된 고유 명사를 언급할 때는 이니셜로 입력해 주시기 바랍니다. 노래, 대화 유형의 장면에서는 10s 파라미터 사용을 권장하며, 이를 통해 더 완전하고 안정적인 생성 효과를 얻을 수 있습니다. 이미지 생성 비디오 기능에서 출력 비디오의 선명도는 입력 이미지와 높은 상관관계를 가집니다. 비디오 품질을 높이려면 더 높은 해상도의 이미지를 업로드하는 것을 권장합니다.

Web-작업 인터페이스		App-작업 인터페이스

작업 프로세스
「+ 새 음색 만듦」를 클릭하여 「로컬 업로드」 또는 「기록 선택」을 통해 생성할 수 있습니다. 로컬 업로드: Web은 mp3, wav, mp4 등 오디오/비디오 파일을 지원하며, App은 비디오 파일만 지원합니다. 소재 요건: 길이 5~30초, 단일 화자 권장 (여러 사람의 목소리가 겹치지 않도록 주의) 말하기 속도가 일정하고 중립적인 감정 유지, 배경에 뚜렷한 소음이 없어야 함. 기록 선택: 「기록 창작」 또는 「기록 업로드」에서 음색을 추출할 수 있습니다. (사운드 효과류, 특수 효과류 작품, 비디오 2.6 출시 전 생성된 비디오, 2.6 모델에서 「사운드 영상 동기화」를 켜지 않은 비디오 등 안정적인 음색 추출이 불가능한 소재는 지원하지 않음) 업로드가 완료되면 시스템이 자동으로 음색을 추출하며, 추출된 음색의 이름을 짓거나 삭제할 수 있습니다. 최대 200개의 음색 생성을 지원합니다.

방식 1: 「@」 기호로 빠른 호출		방식 2: 「음색 목록」 수동 선택

작업 프로세스
창작 인터페이스의 「사운드 영상 동기화」 스위치를 켭니다. 입력창에 @ 기호를 입력하면 시스템이 자동으로 음색 드롭다운 목록을 호출합니다. 목록에서 음색을 직접 선택하거나 음색 키워드를 입력하여 정밀 매칭하면 해당 음색이 바인딩됩니다.		창작 인터페이스의 「음색 선택」 목록을 엽니다. 목표 음색을 선택하고 클릭하여 바인딩을 완료합니다.
음색 적용 규칙
지정 음색 사용 규칙: 특정 주체가 특정 음색으로 말하게 하려면, 주체 뒤에 바로 붙여서 @음색명을 추가해야 합니다. 즉, 「주체@음색명」. 예시: [쇼핑 스트리머] @상큼한 여성음성: "이 상의가 바로 요즘 유행하는 스타일이에요~" 다중 음색 사용 규칙: 서로 다른 캐릭터의 「@음색명」은 상호 독립적이며, 서로의 음색 바인딩 관계를 덮어쓰지 않습니다. 2인 대화 장면에 권장하며, 3인 이상 장면에서는 효과가 좋지 않을 수 있습니다. 예시: [선생님] @지성적인 여성 음성: "교과서 20페이지를 펴세요." [학생] @소년 음성: "네 선생님!" 현재는 중/영문 오디오/비디오 콘텐츠 기반으로만 음색 생성을 지원하며, 노래하는 장면에서는 음색 제어 효과가 다소 약할 수 있습니다.