클링 비디오 3.0 Omni 사용 가이드
비디오 3.0 Omni:전능 다중 모드 입력, 유성 캐릭터 구동, 직접 음화와 샷 출력
클링 비디오 O1과 클링 비디오 2.6의 기초 위에서, 클링 3.0 시리즈 모델은 심층 융합 기반 통일 모델 훈련 프레임워크를 통해 더욱 원시적인 다중 모드 입력과 출력을 실현하고, 음화 동기화 능력과 주체 일관성 제어 능력을 융합했으며, 시간 제한을 돌파했습니다.
더 긴 비디오 생성(15초)을 지원하는 동시에, 클링 3.0 시리즈 모델은 원시적인 직접 음화 출력을 지원하고, 고도로 유연한 샷 제어 능력과 더 정확한 의미 응답 정확도를 실현하여 AI 영상 콘텐츠에 생명력을 불어넣었습니다. 새로운 세대의 통일 다중 모드 대형 모델을 기반으로, 클링 비디오 2.6 모델은 비디오 3.0으로 업그레이드되었고, 클링 비디오 O1 모델은 비디오 3.0 Omni로 업그레이드되어 제어 가능성과 서사력의 전면적인 진화를 가져왔으며, 전체 화면의 현실감이 현저히 향상되었고, 인물 연기의 표현력이 더욱 풍부해졌습니다.
클링 비디오 3.0 Omni 능력 업그레이드
능력 항목 | Kling 비디오 O1 | Kling 비디오 3.0 Omni | |
텍스트 투 비디오 | 사운드&영상 동시 출력, 스마트 멀티 샷 미지원
| ✅ 사운드&영상 동시 출력, 스마트 멀티 샷 지원 | |
이미지 투 비디오 | |||
스타트 엔드 프레임 투 비디오 | |||
다중 레퍼런스 이미지 | |||
피사체 참고 | |||
비디오 피사체 참고 | 미지원 | ✅ 비디오 주체 업로드/녹화 지원 | |
주체 음색 제어 기능 추가 | 미지원 | ✅ 주체별 음색 제어 추가 지원 | |
비디오 길이 | 최대 10초 | ✅ 최대 15초 | |
클링 비디오 3.0 Omni 신 기능 사용 설명
클링 비디오 3.0 Omni는 입력 이미지 및 비디오 이해력을 근본적으로 강화했으며, 다중 시점 이미지 또는 캐릭터 유형 비디오를 통해 주체를 생성하는 것을 지원합니다. 참조 이미지/주체를 통해, 클링 3.0 Omni는 인간 감독처럼 여러분의 주인공/소품/장면 등을 기억할 수 있으며, 렌즈가 어떻게 흘러가든 주체의 특징이 항상 안정적으로 유지되어, 각 프레임이 정확하고 일관성 있게 연결되도록 보장합니다.
더욱 중요한 것은, 클링 비디오 3.0 Omni가 강력한 다중 주체 융합 능력을 갖추고 있다는 점입니다. 여러분은 자유롭게 여러 다른 주체를 조합하거나, 주체와 참조 이미지를 혼합할 수 있습니다. 복잡한 군상극이나 상호작용 장면에서 모델은 각각의 캐릭터나 소품의 특징을 독립적으로 잠그고 유지할 수 있습니다. 장면의 분위기가 어떻게 극적으로 변하든, 비디오 3.0 Omni는 여러분의 각 '주인공'이 다른 샷에서 산업 수준의 특징 통일성을 실현하도록 보장합니다.
1)전능 참조 3.0: 초강력 일관성, 더 순종적이고 더 유연함

비디오 O1의 능력을 계승하여, 통일 모델의 심층 의미 이해력을 바탕으로, 귀하가 업로드한 이미지, 비디오, 주체, 텍스트—이 모든 것이 비디오 3.0 Omni에게는 하나의 '지령'입니다. 비디오 3.0 Omni 모델은 모달리티의 제약을 깨고, 귀하가 업로드한 한 장의 사진, 한 편의 비디오 또는 주체를 종합적으로 이해하여, 비디오의 다양한 세부 사항을 정확하게 생성할 수 있습니다.
동시에 비디오 3.0 Omni의 참조 생성 능력은 O1에 비해 주체 유사도가 한층 더 향상되었습니다. 또한 모델의 텍스트 지령에 대한 응답 민감도가 크게 도약했으며, 화면 붕괴 현상도 더 적어져 전반적으로 더 순종적이고 유연해져, 매번 생성되는 결과물이 높은 활용 가능성을 지닌 성숙한 작품이 되었습니다.
case 예
주체/참고 이미지 | 텍스트 서술 | 비디오 생성 결과 |
@kling립스틱
@이미지
| 순수 검은 배경. 어둠 속에서 @kling 립스틱의 립스틱 본체와 동일한 색상의 강이 그려지며, 풍만하고 완벽하게 흠 없는 궤적을 남깁니다. 이어서 그 궤적이 "살아나" 액체 강처럼 스스로 우아하게 종이 위로 퍼져나가 번지며, @이미지와 같은 패턴 형태를 만듭니다. 이후 강은 색채의 강과 합쳐져 수면 위에 놓인 @kling 립스틱의 본체 속으로 모여듭니다. 립스틱 주변은 은은한 수면과 꽃봉오리가 있으며, 꽃은 서서히 피어나고 수면에는 잔잔한 물결이 일어납니다. |
|
@이미지 1(복서A)
@이미지 2(복서B)
@이미지 3(장면-옥상)
| 샷 1, 2초 원경, @이미지 1의 복서 A와 @이미지 2의 복서 B가 옥상 중앙에서 대치하며, 발을 벌리고 복싱 준비 자세를 취함. 샷 2, 2초 두 사람이 동시에 접근하며 근접 탐색: @이미지 1 복서 A가 빠르게 주먹을 내지르고, @이미지 2 복서 B가 몸을 돌려 막아냄. 샷 3, 3초 @이미지 1 복서 A가 계속 공격하며, 주먹으로 @이미지 2 복서 B의 머리를 강타하고, @이미지 2 복서 B가 반격함. 샷 4, 4초 원경, 두 복서가 계속 격렬한 격투를 벌임. 샷 5, 2초 근접 샷, @이미지 1 복서 A가 @이미지 2 복서 B를 한 방에 쓰러뜨리고, @이미지 2 복서 B가 쓰러져 일어나지 못함. 샷 6, 2초 탑샷 원경, 두 사람이 분리되고, 싸움을 멈춤.
|
|
@남주
@여주
| 아이슬란드의 한 산등성이, 바람이 세차게 부는 날입니다. 롱 테이크로 이어지는 장면에서, @남주가 웃음을 간신히 참으며 말합니다. "우리 결혼식 너무 간단하지 않아? 아무도 없다는 게, 축복받는 느낌이 하나도 안 들어." 그때, 카메라가 그를 중심으로 천천히 회전하기 시작합니다. 바람에 나부끼는 옷자락과 드라마틱한 배경이 스쳐 지나가고, 회전이 멈추자 맞은편에 서 있는 @여주의 모습이 드러납니다. 그녀도 마찬가지로 강한 바람을 온몸으로 받아내고 있지만, 따뜻한 미소를 지은 채 조용히 대답합니다. "들리지? 바람 소리. 저 소리가 바로 모두가 우리에게 보내는 축복이야." 전체 장면은 핸드헬드 촬영의 자연스러운 흔들림과 함께 영화감성 넘치는 색감과 구도로 담겨집니다. |
클링 AI 크리에이티브 파트너클링 (CPP) @FOS께서 제공 |
2)캐릭터 주체 3.0: 비디오 캐릭터, 음성과 영상을 동시 입력, 생동감 있고 목소리까지 전달
3.0 Omni는 주체에 「목소리」를 추가하여, 특정 캐릭터에 전용 음색을 바인딩할 수 있습니다. 이를 통해 캐릭터가 다른 비디오, 다른 장면, 다른 샷에서도—'생김새가 같을' 뿐만 아니라 '말하는 소리도 같게' 만들 수 있습니다. 인터뷰, 대화, 내레이션을 막론하고, 3.0 Omni는 음성이 인물의 기질과 높은 수준으로 일치하도록 하여, 진정으로 재사용 가능한 「유성 캐릭터 자산」을 형성합니다.
비디오 주체 생성 지원: 본색 연기, 한 번의 클릭으로 극에 들어감
단 3-8초 길이의 캐릭터 유형 비디오를 업로드/촬영하기만 하면, 모델이 핵심 캐릭터 특징과 원본 음색을 추출하여 캐릭터의 외모, 체형, 분위기를 완벽하게 재현합니다. 앱에서 '셀카로 바로 주인공이 되는' 창작의 즐거움을 경험하고, 생활 장면을 업로드하면 순식간에 이야기의 중심으로 변신합니다. 성간 여행을 떠나거나 단막극을 연기하는 것 모두 '비디오에서 출발하여 본색에 충실한' 극한의 재현을 가능하게 합니다. 원본 음성을 마음에 들어하지 않는다면, 추가로 선명한 인물 음성 오디오를 업로드하여 음성을 수정할 수도 있습니다.

case 예
주체/참고 이미지 | 텍스트 서술 | 비디오 생성 결과 |
@Grace
@Alan
@사모예드
@이미지
| 샷 1, 3초, 미디엄 샷. 배경은 @이미지입니다. @Grace가 소파에 앉아 쿠키를 먹고 있고, @Alan이 @사모예드를 데리고 방으로 들어옵니다. @사모예드가 @Grace 손에 있는 쿠키를 향해 달려듭니다. @Grace가 말합니다: "Hey! Watch your dog!" 샷 2, 2초. @Alan이 옆에 앉아 개 목줄을 잡아당기고, @Alan이 @사모예드를 들어 올립니다. 클로즈업, @Alan이 말합니다: "He just likes cookies more than me." 샷 3, 3초, 클로즈업. @Grace가 웃으며 말합니다: "Well, he has good taste at least."
|
|
@일본풍 소년
| 중경, 정면 시점으로 @일본풍 소년이 언덕 위에서 걸어 내려와 @이미지 속 기둥 옆에 앉습니다. 근경, 얼굴 클로즈업, @일본풍 소년이 기둥에 기대어 말합니다:“今天的风,比昨天软一点… 连草叶都变得温柔了” 영화적 질감 @이미지. 측면 근경 얼굴 클로즈업, @일본풍 소년이 눈을 감고, 햇살이 얼굴에 살짝 스칩니다. 탑샷, @일본풍 소년이 뒤로 몸을 눕히고, 풀잎이 셔츠 위에 덮이며, 팔을 뒤통수에 베고 푸른 하늘을 바라보며 말합니다: “希望这样的夏天,永远不会结束”
|
|
캐릭터 유형 다중 이미지 주체, 음색 추가 지원
비디오 O1은 다중 시각적 각도의 다중 이미지 주체 생성을 지원합니다. 새로운 비디오 3.0 Omni에서는 다중 이미지 주체 생성과 동시에 ≥3초 길이의 인물 음성을 업로드하여 음색을 추출할 수 있게 되어, 침묵하던 주체가 자신만의 음성을 갖추게 되었습니다. 이를 통해 더 정확한 입모양 매칭과 표정/감정 구동이 가능해지며, 더욱 감동적인 음성-영상 연기를 구현할 수 있습니다.

case 예
주체/참고 이미지 | 텍스트 서술 | 비디오 생성 결과 |
@작은 서동
参考图
| 샷 1, 3초, 토크쇼 오픈마이크 무대 중근경 @참조 이미지, 배경에는 큰 레트로 네온 사인 "KLING"이 있고, 따뜻한 금색 측면 역광이 실루엣을 감싸며, 중경에서 카메라가 배우를 따라 마이크 앞으로 걸어가고, 손가락으로 마이크 스탠드를 가볍게 잡아 높이를 살짝 조정합니다. 샷 2, 4초, 상반신 중경 클로즈업 @작은 서동, 입을 열어 말합니다: “我居然输给了 Kid,他上过几天班呀,教大家如何快乐上班” 샷 3, 4초, @작은 서동 표정이 절제된 미묘한 비웃음, 자연스러운 멈춤, “你听听,花 5 分钟,论证了这么个伪命题” 샷 4, 2초, 관객들이 크게 웃는 장면으로 전환. |
|
@탐험가
음원
| @탐험가가 라이브 방송 중이며 시청자들을 그녀의 세계로 환영합니다. 그녀가 말합니다: “Do you know what the most interesting thing in the world is? It's going on an adventure with me! The next stop is the Atlantic Ocean!” 화면이 대서양의 파노라마 뷰로 전환됩니다. @탐험가가 거친 폭풍우 속에서 키를 잡고 있습니다. |
|
@조각상
@이미지
|
1.탑샷 시점, 풀샷. @조각상이 @이미지의 한가운데에 서 있습니다. 2.미디엄 샷, 사이드뷰. 카메라가 @조각상 주위를 한 바퀴 회전합니다. 3.클로즈업. @조각상의 손가락이 살짝 움직입니다. 4.클로즈업, @조각상의 얼굴. "I'm back"이라고 말합니다. |
|
비디오 녹화하여 캐릭터 주체 생성 (앱 버전에서만 지원됨) | ||
케릭터 비디오 촬영 클릭 → 녹화 단계 진입 → 비디오 주체 생성 시작 | 인터페이스 안내에 따라 음성 녹음 및 다각도 촬영을 완료하세요. | 주제 캐릭터의 음색, 이름, 설명 등을 완성하여 비디오 캐릭터 주체 생성을 완료합니다. |
|
|
|
비디오 업로드하여 주체 생성 시작 | ||
비디오 업로드하여 주체 생성 시작하세요. | 비디오를 적절한 길이로 편집하고, 다각도 캐릭터 정보가 포함된 영상을 준비하세요. | 주제 캐릭터의 음색, 이름, 설명 등을 완성하여 비디오 캐릭터 주체 생성을 완료합니다. |
|
|
|
캐릭터 유형 다중 이미지 주체에 음색 바인딩 | ||
| ||
● 정면 참조 이미지를 업로드한 후, 캐릭터 유형 주체인 경우 음색 선택란이 나타납니다. ● 음색을 추출할 비디오를 업로드하거나, 기존 음색을 선택할 수 있습니다. ● 생성 완료 후 음색은 주체와 바인딩되며, 입력란에서 다시 음색을 지정할 필요가 없습니다. | ||
3)샷 디비전 서사 3.0: 자유로운 길이, 커스텀 샷, 15초 생성의 정밀한 제어


비디오 O1에서는 한 번에 3-10초의 자유 생성을 선택할 수 있습니다. 비디오 3.0 및 3.0 Omni에서는 자유로운 길이 제어를 유지한 기초 위에, 원시적인 커스텀 샷 디비전 능력을 도입하고, 단일 생성 길이를 15초로 향상시켰습니다.
이제 여러분은 샷 수준의 정밀한 제어가 가능해져, 각 샷의 길이, 구도, 시점, 서사 내용, 그리고 카메라 움직임 방식을 명확히 지정하고, 샷 간의 시작, 전개, 전환, 마무리를 완성할 수 있습니다.
한 번의 생성으로 리듬이 분명하고 구조가 완전한 다중 샷 서사를 완성하며, 매초의 화면이 여러분의 창의적인 구상에 정확하게 기여하도록 할 수 있습니다.
case 예
주체/참고 이미지 | 텍스트 서술 | 비디오 생성 결과 |
@Mike
@Cindy
참조 이미지(장면-기차)
| 샷 1, 2초, @Mike와 @Cindy가 빈티지 녹색 기차 좌석에 마주 앉아 있습니다. 기차가 전진 중입니다. 컷, @Mike의 측면 얼굴 클로즈업, 턱을 괴고 창밖을 바라보며 묻습니다: "Where are we about to go?" 샷 2, 3초 컷, @Cindy의 정면 얼굴 클로즈업, @Mike을 바라보며 말합니다: "We are about to go to a place where it is summer all year round." 샷 3, 2초 컷, @Mike이 미소 지으며 고개를 끄덕이고, 말합니다: "I love summer." 샷 4, 2초 컷, 원경, 두 사람이 마주보며 서로를 바라보고 미소 짓습니다. |
|
@주체1
@주체2
| 샷 1, 3초, 풀샷. 깊은 밤 네온이 반짝이는 거리 모퉁이, 빗길에 젖은 노면에 반사광이 떠오릅니다. @주체1이 빨간 공중전화 부스에 기대어 담배를 피우고 있으며, 화면에 강한 모션 블러(拖影感)가 느껴집니다. 샷 2, 2초, 클로즈업으로 전환. @주체1의 측면 얼굴이 그림자에 가려져 있고, 그는 고개를 숙인 채 묻습니다. "아직도 어떤 길로 갈지 결정 못 했어?" 샷 3, 4초, @주체2의 클로즈업으로 전환. 클로즈업된 입술과 흔들리는 이어링이 보입니다. 그녀는 고개를 숙인 채 동전을 만지작거리며 말합니다. "사람들이 절대 길을 묻지 않는 곳이 있다고 들었어." 샷 4, 3초, 미디엄샷으로 전환. @주체1이 스스로를 비웃듯 쓴웃음을 지으며 연기를 내뿜습니다. 연기가 그의 얼굴을 가리자, 그는 말합니다. "그런 곳은 분명히 외로울 거야." 샷 5, 3초, 롱샷으로 전환. @주체1과 @주체2가 서로 마주보고 서 있고, 그들 사이로 차량의 흐릿한 헤드라이트가 끊임없이 스쳐 지나갑니다. 배경 소음인 시끄러운 도시의 소리가 갑자기 멈추고, 두 사람이 서서히 빛의 아우라 속으로 사라집니다. |
|
@Image(参考图)
@Goro
@Kaiko
| [00:00 - 00:02] Medium shot: @Goro, gestures emphatically with a lit cigarette walking towards a locker, smoke curling around his hand as he punctuates each beat of his point. Audio: The faint, organic crackle of the cigarette tip under his words. [00:02 - 00:04] Close-up: @Goro weathered face fills the frame—eyes wide, intensity sharpened, jaw working as he speaks like he’s carving the truth into the air. Audio: Cigarette crackle continues; room tone low and tight. [00:04 - 00:06] Cutaway: @Kaiko, a young woman with a blonde buzzcut and a scar on her eyebrow, looks down at her athletic-taped hands—stoic, absorbing, refusing to react. Audio: Crackle softens slightly; her breath is barely audible. [00:06 - 00:08] Close-up: Goro’s mouth forms the word “pop”—a small puff of white smoke escapes on the consonant. Audio: A tiny smoke-breath exhale overlays the cigarette’s crackle. [00:08 - 00:10] Medium shot: @Goro leans his back against a row of dented industrial metal lockers, crossing his arms while still holding the cigarette—settling into authority, like the room belongs to him.— Goro:“You opened it—pop—and heat hit your face. Now? Wax paper. Burger sweats, gets soggy. Bun dissolves into meat. Mush of good intentions. No boundary. No definition.” @Image |
클링 AI 크리에이티브 파트너클링 (CPP) @Nigel Watson 께서 제공
|
비디오 3.0 Omni 모델 가격
비디오 3.0 Omni는 현재 1080p와 720p 두 가지 모드를 지원합니다. 비디오 3.0 Omni를 사용하는 데 소모되는 영감 값은 입력 상황과 생성 비디오의 길이에 따라 결정됩니다. 입력 비디오의 유무는 생성 가격에 영향을 미칩니다.
비디오 입력 없음 | 비디오 입력 있음 | |||
1080p | 720p | 1080p | 720p | |
打开音画同步 | 12 크레딧/s | 9 크레딧/s | 지원 불가 | 지원 불가 |
关闭音画同步 | 8 크레딧/s | 6 크레딧/s | 16 크레딧/s | 12 크레딧/s |
FAQ
지원되는 입력 소재
● 이미지: 최대 7개의 이미지를 업로드할 수 있으며, 가로/세로 크기가 300px 이상, 파일 크기가 ≤10MB, 형식은 .jpg / .jpeg / .png이어야 합니다.
● 비디오: 하나의 비디오를 업로드할 수 있으며, 길이는 3초 ≤ 길이 ≤ 10초, 파일 크기 ≤200MB, 해상도 ≤2k여야 합니다.
● 주체:
○ (1) 여러 각도의 이미지(최대 4장)를 업로드/사용하여 AI 생성으로 하나의 주체를 조합할 수 있으며, 모델에 더 풍부한 참고 정보를 제공합니다. 단, 주체가 역할 유형일 경우, 5-30초 길이의 단독 발화 오디오(배경음이 깨끗하고, 말속도가 적절하며, 감정과 스타일이 통일된 중성적인 음성 권장)를 추가로 업로드하여 해당 역할에 음색을 바인딩할 수 있습니다.
○ (2) 3-8초 길이의 단독 역할 유형 비디오 클립을 업로드하여, 더 생동감 있고 정보가 풍부한 비디오 역할 주체를 생성할 수 있습니다. 비디오 속 인물 음성이 해당 역할의 음색으로 바인딩될 수 있습니다.
비고: 입력 영역에 비디오가 존재할 경우, 이미지/주체를 합쳐 최대 4개까지 업로드할 수 있습니다. 비디오가 존재하지 않을 경우, 이미지/주체를 합쳐 최대 7개까지 업로드할 수 있습니다.
비디오 편집, 지령 변경 등의 기능
3.0 Omni의 비디오 편집, 지령 변경 등의 기능은 O1과 사용 방법이 동일합니다.
































































