動画 3.0 Omni：オールインワンのマルチモーダル入力、音声付きキャラクタードライブ、音画・カット割りの直接出力 Kling動画 O1 およびKling動画 2.6 の基盤の上に、Kling 3.0 シリーズモデルは、深層融合型の統一モデルトレーニングフレームワークを採用。よりネイティブなマルチモーダル入出力を実現し、音声と映像の同期能力とエレメント一貫性制御能力を融合させ、さらに生成時間の制限を突破しました。より長い動画生成（15秒）をサポートすると同時に、Kling 3.0 シリーズモデルはネイティブでの音声・映像同時出力を実現。高度に柔軟なカット割り制御能力と、より精密なプロンプト意味解釈精度を備え、AI映像コンテンツに生命を吹き込みます。この新世代の統一マルチモーダル大規模モデルに基づき、Kling動画 2.6 モデルは動画 3.0 へ、Kling動画 O1 モデルは動画 3.0 Omniへと進化を遂げ、制御性と叙事性の両面で全面的な進化をもたらします。これに伴い、生成される映像の全体的なリアリティが著しく向上し、人物表現もより豊かな演技性と表現張力を備えています。

Kling動画 3.0 Omni 能力アップグレード

能力項目	Kling動画 O1	Kling動画 3.0 Omni
テキストからの動画生成	音声・映像同期なし、カスタムマルチカットなし	✅ 音声・映像同期、カスタムカット割りをサポート
画像からの動画生成
先頭/末尾フレームからの動画生成
複数画像参照
エレメント参照
動画エレメント参照	サポートなし	✅ 動画エレメントのアップロード/録画をサポート
エレメントへの音色制御追加	サポートなし	✅ エレメントへの音色追加をサポート
動画長	最長 10 秒	✅ 最長 15 秒

Kling動画 3.0 Omni 新機能の使い方

Kling動画 3.0 Omni は、入力画像および動画の理解を基盤的に強化し、多視点画像またはキャラクター動画を用いてエレメントを作成することをサポートします。参考画像/エレメントを通じて、Kling 3.0 Omni は人間の監督のように、あなたの主役/小道具/シーンなどを記憶することができ、カメラがどのように動いても、エレメントの特徴は常に安定して一貫しており、すべてのフレームが精密で連続していることを保証します。

さらに重要なことに、Kling動画 3.0 Omni は強力な複数エレメント融合能力を備えています。複数の異なるエレメントを自由に組み合わせたり、エレメントと参考画像をミックスすることができます。複雑な群像劇やインタラクションシーンにおいて、モデルはそれぞれのキャラクターや小道具の特徴を独立してロックし維持することができます。シーンの雰囲気がどのように劇的に変化しても、動画 3.0 Omni はあなたのすべての「主役」が、異なるカットで産業レベルの特徴の統一を実現できることを保証します。

1) オールインワン参照 3.0：超強力な一貫性、より従順で機敏

動画 O1 の能力を継承し、統一モデルの深層意味理解力を基盤として、あなたがアップロードする画像、動画、エレメント、テキスト——これらはすべて動画 3.0 Omni にとっては「指示」となります。動画 3.0 Omni モデルはモダリティの制限を打ち破り、あなたがアップロードした一枚の写真、一本の動画、またはエレメントを総合的に理解し、動画の様々なディテールを精密に生成することができます。

同時に、動画 3.0 Omni の参照生成は、O1 と比較して、エレメントの類似度がさらに向上しています。また、モデルのテキスト指示への応答感度が大幅に向上し、画面の崩壊も少なくなり、全体的により「従順」で「機敏」になり、すべての生成が高い可用性を持つ成熟した作品となります。

ケース例

エレメント/参考画像	テキスト記述	動画生成結果
@kling口紅 @画像	純黒背景。暗闇の中に、@kling口紅の口紅本体と同じ色の川が一筋現れ、豊満で完璧な軌跡を残す。その後、軌跡が「生き」始め、液体の川のように、自発的かつ優雅に紙面に広がり、にじみ、@画像のような模様を形成する。その後、川は色の川を離れ、水面に置かれた@kling口紅の口紅本体に集まる。口紅の周りは淡い水面と花のつぼみで、花がゆっくりと開き、水面にさざ波が立つ。
＠図1（ボクサーA） @図2（ボクサーB）＠図3（シーン-屋上）	カット1, 2s: ロングショット、＠図1 のボクサー A と @図2 のボクサー B が屋上中央で対峙し、足を開いてボクシングの構えをとる。カット2, 2s: 二人が同時に接近し、近距離で探り合い：＠図1 のボクサー A が素早くパンチ、 @図2 のボクサー B が体をかわしてブロック。カット3, 3s: ＠図1 のボクサー A が攻撃を続け、 @図2 のボクサー B の頭部に一発パンチ。 @図2 のボクサー B が反撃。カット4, 3s: ロングショット、二人のボクサーが激しい格闘を続ける。カット5, 2s: 俯瞰ロングショット、二人が離れ、格闘を停止する。
@男性主人公 @女性主人公	カット：ロングテイク。強風の日、アイスランドの山脈。@男性主人公が抑えきれない笑みを浮かべて言う：「この結婚式、ちょっとシンプルすぎるかな。他の誰からの祝福もないみたいで」。そして、人物を主体にカメラが回り込み、向かい側に立つ @女性主人公が見える。彼女が笑いながら言う：「風の音よ。この風の音が、みんなからの祝福だよ」。映画的な質感、手持ち撮影感。	Kling AI クリエイティブパートナープログラム（CPP）@FOS より

2）キャラクターエレメント 3.0：動画キャラクター、音声と映像が同時に入力、生き生きとして声も伝わる

3.0 Omni はエレメントに「音声」を追加しました。あるキャラクターにその専用の音色をバインドし、キャラクターが異なる動画、異なるシーン、異なるカットで——「同じ見た目」だけでなく、「同じ話し方」もできるようになります。口頭放送、対話、ナレーションを問わず、3.0 Omni は音声と人物の気質を高度にマッチングさせ、真に再利用可能な「音声付きキャラクター資産」を形成することができます。

動画エレメントの作成をサポート：本人出演、ワンクリックで役に入る

3〜8秒のキャラクター動画をアップロード/撮影するだけで、モデルがコアとなるキャラクターの特徴と原音声の音色を抽出し、キャラクターの容姿、体格、雰囲気を完璧に再現します。アプリ版では、自撮りが即主役になる創作の快感を体験できます。生活の一場面をアップロードすれば、瞬時に物語の中心に。異世界を旅しようとショートドラマを演じようと、「動画に基づき、本来の姿に忠実」という究極の再現が可能です。原音声が気に入らない場合は、追加で明確な人物音声をアップロードして音声を変更することもできます。

ケース例

エレメント/参考画像

テキスト記述

動画生成結果

@Grace

@Alan

@サモエド

@画像1

カット1, 3s: ミディアムショット。背景は @画像1。@Grace がソファに座り、クッキーを食べている。@Alan が @サモエドを連れて部屋に入り、@サモエドが @Grace の手にあるクッキーに飛びつく。@Grace が言う：“Hey! Watch your dog!”

カット2, 2s: @Alan が隣に座り、リードを引きながら、@サモエドを抱き上げる。クロースアップ。@Alan が言う：“He just likes cookies more than me.”

カット3, 3s: クロースアップ。@Grace が笑いながら言う：“Well, he has good taste at least.”

＠日系男子

＠画像

中景。正面アングル。＠日系男子が丘の斜面を下り、＠画像のポールにもたれかかって座る。

近景・顔のクローズアップ。＠日系男子はポールにもたれながら言う。「今日の風は、昨日より少し柔らかい……草の葉まで優しくなったみたいだ」シネマティックな質感、＠画像。

横からの近景・顔アップ。＠日系男子は目を閉じ、やわらかな日差しが顔に当たる。

俯瞰ショット。＠日系男子は後ろに倒れ、草の葉がシャツの上にかかり、腕を頭の下に組んで青空を見上げながら言う。「こんな夏が、ずっと続けばいいのに」

キャラクター型複数画像エレメント、音色追加をサポート

動画 O1 は、多視点の複数画像エレメントの作成をサポートしています。新たな動画 3.0 Omni では、複数画像エレメントを作成する際に、同時に ≥3秒の人物音声をアップロードして音色を抽出することが新たに追加されました。これにより、静かなエレメントが独自の声帯を持つようになり、より精密な口元のマッチングと雰囲気の駆動を実現し、より感染力のある音画演技を生み出します。

ケース例

エレメント/参考画像	テキスト記述	動画生成結果
@ちび書童参考画像	カット1, 3s, トークショーのオープンマイクステージ中近景 @参考画像、背面に大きなレトロなネオンの「KLING」の文字、暖かい金色のサイド逆光で縁取り、中景、カメラが俳優を追い、マイクスタンドの前に歩み寄り、指で軽くマイクスタンドを支え、高さをわずかに調整する。カット2, 4s, バスト中景接写 @ちび書童、口を開いて言う「私はなんとKidに負けてしまった、彼は数日しか働いたことがないのに、みんなに楽しく働く方法を教えるなんて」カット3, 4s, @ちび書童表情を抑えわずかに嘲笑い、自然に間を置き、「聞いてよ、5分かけて、こんな偽命題を証明したんだ」カット4, 2s, 観客が大笑いするシーンに切り替わる。
@探険家音声	@探険家がライブ配信で「私の世界へようこそ！世界で一番面白いことって知ってる？それは私と一緒に冒険することよ！次の目的地は大西洋！」と話す。画面は大西洋の全景に切り替わり、@探険家は嵐の中で舵を握っている。
@彫塑 @画像	1. 俯瞰アングル、フルショット、@彫塑が @画像の中央に立っている。 2. ミディアムショット、サイドビュー、カメラが @彫塑を一周回る。 3. クロースアップ、@彫塑の手が微かに動いた。 4. クロースアップ、@彫塑の顔、言う："I'm back."

動画エレメントライブラリの作成

📌

より詳細なエレメントの作成と使用方法については、こちらをご覧ください：可灵「主体库 3.0」使用指南

3）カット割り叙事 3.0：自由な長さ、カスタムカット、15秒生成で精密に制御

動画 O1 では、単回 3〜10秒の自由生成を選択できました。動画 3.0 および 3.0 Omni では、自由な長さ制御を維持する基盤の上に、ネイティブなカスタムカット割り能力を導入し、単回生成の長さを 15秒に引き上げました。

これにより、あなたはカットレベルの精密制御が可能になります。各カットの長さ、画角、視点、叙事内容、カメラワークなどを明確に指定し、カット間の「起承転合」を完成させることができます。

一度の生成で、リズムが明確で構造が完全なマルチカット叙事を完成させ、すべての一秒が、あなたの巧みな考えに正確に役立つようにします。

ケース例

エレメント/参考画像

テキスト記述

動画生成結果

@Mike

@Cindy

＠画像

カット1, 2s: @Mikeと@Cindyが古い緑の列車の座席に向かい合って座り、列車が前方へ走行中。カット切り替え、@Mikeの横顔の接写、顎を支え、窓の外を見て、尋ねる「Where are we about to go?」

カット2, 3s: カット切り替え、@Cindyの正面顔の接写、彼女を見つめながら言う「We are about to go to a place where it is summer all year round.」

カット3, 2s: カット切り替え、@Mikeが笑顔で頷き、言う「I love summer」。

カット4, 2s: ロングショットに切り替え、二人が向かい合い、微笑みながら見つめ合う。

@エレメント1

@エレメント2

カット1, 3s: フルショット。深夜、ネオンが輝く街角。路面は湿り、映り込みがある。@エレメント1 が赤い電話ボックスのそばに寄りかかり、タバコを吸っている。画面に強い残像感がある。

カット2, 2s: クロースアップに切り替え。@エレメント1 の横顔は影に隠れ、彼はうつむきながら尋ねる。「まだどちらの道を行くか、決めていないのか？」

カット3, 4s: @エレメント2 にクローズアップ。クローズアップされる唇と揺れるイヤリング。彼女はうつむきながら一枚のコインを弄び、言う。「聞いたことがある、どこにも道を尋ねない人々がいる場所があるって」

カット4, 3s: ミディアムショットに切り替え。@エレメント1 が自嘲的に微笑み、一口の煙を吐く。煙が彼の顔を覆い隠し、言う。「そんな場所は、きっと寂しいだろうな」

カット5, 3s: ロングショットに切り替え。@エレメント1 と @エレメント2 が向かい合って立っている。二人の間を、流れるように通り過ぎる車のライトがぼんやりと横切る。背景音の喧噪が突然静まり、二人は光の暈の中にゆっくりと消えていく。

@Image

@Goro

@Kaiko

[00:00 - 00:02] Medium shot:

@Goro, gestures emphatically with a lit cigarette walking towards a locker, smoke curling around his hand as he punctuates each beat of his point. Audio: The faint, organic crackle of the cigarette tip under his words.

[00:02 - 00:04] Close-up:

@Goro weathered face fills the frame—eyes wide, intensity sharpened, jaw working as he speaks like he’s carving the truth into the air. Audio: Cigarette crackle continues; room tone low and tight.

[00:04 - 00:06] Cutaway:

@Kaiko, a young woman with a blonde buzzcut and a scar on her eyebrow, looks down at her athletic-taped hands—stoic, absorbing, refusing to react. Audio: Crackle softens slightly; her breath is barely audible.

[00:06 - 00:08] Close-up: Goro’s mouth forms the word “pop”—a small puff of white smoke escapes on the consonant. Audio: A tiny smoke-breath exhale overlays the cigarette’s crackle.

[00:08 - 00:10] Medium shot:

@Goro leans his back against a row of dented industrial metal lockers, crossing his arms while still holding the cigarette—settling into authority, like the room belongs to him.— Goro:“You opened it—pop—and heat hit your face. Now? Wax paper. Burger sweats, gets soggy. Bun dissolves into meat. Mush of good intentions. No boundary. No definition.”

@Image

Kling AI クリエイティブパートナープログラム（CPP）@Nigel Watson より

動画 3.0 Omni モデル料金体系

動画 3.0 Omni は、現在 1080p と 720p の2つのモードをサポートしています。動画 3.0 Omni を使用する際にかかるクレジット値は、あなたの入力状況と生成動画の長さによって決まります。動画を入力するかどうかによって、生成価格が影響を受けます。

	動画入力なしの場合		動画入力ありの場合
	1080p	720p	1080p	720p
音声・映像同期をオン	12 クレジット/s	9 クレジット/s	暫定サポートなし	暫定サポートなし
音声・映像同期をオフ	8 クレジット/s	6 クレジット/s	16 クレジット/s	12 クレジット/s

FAQ

サポートされている入力素材

画像：最大7枚の画像をアップロードできます。画像の幅と高さは 300 px 以上、ファイルサイズ ≤ 10MB、形式は .jpg / .jpeg / .png である必要があります。
動画：1本の動画をアップロードできます。長さは 3秒 ≤ 長さ ≤ 10秒、ファイルサイズ ≤200MB、解像度 ≤2k である必要があります。
エレメント：
- （1）複数の異なる視点の画像（最大4枚）をアップロード/使用してAI生成し、1つのエレメントに組み合わせ、モデルにより豊富な参照情報を提供することができます。ただし、エレメントがキャラクタータイプの場合、5〜30秒の単一人物の話し声の音声（背景音がクリーンで、話速が適度で、感情とスタイルが統一された中性的な音声を推奨）をアップロードし、このキャラクターに音色をバインドすることができます。
- （2）3〜8秒の単一人物のキャラクター動画クリップをアップロードし、より生き生きとし、情報量が豊富な動画キャラクターエレメントを作成することができます。動画内の人物の音声は、そのキャラクターの音色としてバインドできます。

備考：入力エリアに動画が存在する場合、画像/エレメントは合計で最大4個までアップロードできます。動画が存在しない場合、画像/エレメントは合計で最大7個までアップロードできます。

動画編集、指示変更などの機能

3.0 Omni における動画編集、指示変更などの機能は、O1 の使用方法と同様です。詳細については、Kling動画 O1モデルご利用ガイドをご覧ください Kling 動画 O1ご利用ガイド

動画を録画してキャラクターエレメントを作成（アプリ版のみ対応）
キャラクター動画の撮影をクリックし、録画セッションに入り、動画エレメントの作成を開始	インターフェースの指示に従って音声録音と多角度撮影を完了	エレメントの音色、名前、説明などの情報を完成させ、動画キャラクターエレメントの作成を完了

動画をアップロードしてキャラクターエレメントを作成
動画をアップロードし、エレメント作成を開始	動画を適切な長さにトリミング（多角度のキャラクター情報を含むシーンを推奨）	エレメントの音色、名前、説明などの情報を完成させ、動画キャラクターエレメントの作成を完了

キャラクター型（複数画像）エレメントに音色をバインド

正面参照画像をアップロード後、キャラクタータイプのエレメントの場合、音色選択欄が表示されます。動画をアップロードして音声を抽出するか、既存の音色を選択できます。作成完了後、音色はエレメントにバインドされ、入力ボックス内で音色を再指定する必要はありません。

Kling動画 3.0 Omni 能力アップグレード

Kling動画 3.0 Omni 新機能の使い方

1) オールインワン参照 3.0：超強力な一貫性、より従順で機敏

ケース例