Kling 動画 2.6 の体験へようこそ:さあ、「映像が聞こえ、音が見える」体験を。
これまで、Kling の動画モデルは「音のない映像」しか生成できませんでした。クリエイターは自らナレーションを探し、音声(音效)を組み合わせ、リズムを調整しなければならず――手順が多く、試行錯誤の繰り返しで、最終的な動画も真に没入できるものにするのは困難でした。
今、全く新しい「動画 2.6 モデル」が登場しました。これは一度の生成で、映像+自然なボイス+マッチする音声+環境の雰囲気を同時に生み出し、「音」と「映像」の二つの世界を真に融合させます。テキストを入力しても、画像をアップロードしても、ワンクリックで完全な、音ありの、リズム感のあるダイナミックな動画が得られ、苦労してつなぎ合わせる必要はもうありません。
これまでの「映像のみ」のモデルと比べ、動画 2.6 は全方位的なアップグレードをもたらしました:
- もう「サイレント映画」ではありません、音のある物語を作りましょう: 映像、ボイス、音声をワンステップで生成。カメラワークのリズムと音の感情が密接に連携し、コンテンツを「見る」ものから、「見て、聴いて、没入できる」ものへとアップグレードさせます。
- 音はあなたがコントロールし、ディテールも思いのまま: 誰が話すか、何を話すか、どんな感情か、すべてあなたが決定できます。環境音や特殊な音声も自由に生成され、リズムの速さや全体的な雰囲気も正確に調整でき、さまざまな制作シーンに対応します。
- 初心者でもワンクリックで動画が完成し、制作効率が倍増します: 複雑な操作は不要。テキストや画像を入力するだけで、システムが自動的に映像と音のディテールを補完します。SNSクリエイターや小規模なスタジオチームでも、プロのような動画を素早く制作できます。
一、KlingAI 初の「音声と映像の同時生成」モデルが正式リリース!
「動画 2.6 モデル」では、初となる「音声と映像の同時生成」機能を導入しました。1回の生成で動画の映像と完全なオーディオを同期して出力でき、ボイス、音声(音効)、環境音などを網羅します。リズム、感情、物語の表現において高度な調和を実現し、真の意味での「見た通りの音が聞こえる」視聴覚体験を提供します。
今回のアップグレードでは、以下の点を重点的に強化しました:
- 音声と映像の同期:ボイスのリズム、環境音、そして画面の動きが密接に呼応し、「映像と音がバラバラ」という違和感を解消します。
- オーディオ品質:人声(ボイス)、音声、環境音など、多種多様なサウンド生成に対応。音質はよりクリアで、層(レイヤー)も豊かになり、リアルなミキシング効果により近づきました。
- 意味理解:多様なシーンにおけるテキスト描写、話し言葉、複雑なストーリーに対して強力な意味理解能力を持ち、クリエイターの意図をより正確に把握して、ニーズにぴったり合った映像と音を出力します。
制作フローにおいて、Kling 2.6 は「テキスト / 画像から音と映像のコンテンツを素早く生成する」というコアニーズを軸に、2つの効率的な制作ルートを提供します:
キストから音声・動画:一言から完全な音声付き動画へ | 画像から音声・動画へ:静的な画像がしゃべり出す、動き出す | ||||
テキストを入力すると、音声・効果音・環境音付きの動画を生成 | 画像 / テキストをアップロードし、ワンクリックで音声付き動画を直接出力。既存の画像を音声と映像のコンテンツへ拡張するのに適しています。 | ||||
サポートするオーディオタイプ | |||||
発話・ナレーション | 対話 | 歌唱・ラップ | 環境音声 | 物体・動作音声 | 混合音声 |
| キャラクターの話し声、ナレーション | 複数人による会話 | キャラクターが歌詞に合わせて歌ったりラップをする | シーンの背景音(風の音、波の音、街中の人声、車の流れなど) | ガラスが割れる音、足音、包丁で切る音、機械の轟音など | ボイス+背景音+物体音声の組み合わせにより、没入感のある視聴覚体験を形成 |
二、プラットフォーム機能利用ガイド
今回のモデルはウェブ版とアプリ版の両方に対応しており、PCからでもスマホからでも、手軽に動画を生成できます。動画の最終的な仕上がりは、プロンプト(Prompt)、入力画像(画像から音声・動画)、およびパラメータ設定によって決まります:
- プロンプト:表現したい内容、シーン、動作を描写するために使用します。
- 入力画像(画像から音声・動画):主体の外見、構図、スタイルなどの視覚的特徴を指定し、生成される動画をより元の画像に近づけるために使用します。
- 音声と映像の同時生成スイッチ:オンにすると、動画生成時に対応するオーディオが同期して出力され、音声と映像が一体となって表現されます。オフにすると、音声のない動画のみが生成されます。
- パラメータ設定:動画の生成方法と基本属性を制御します。
テキストから音声・動画 - 操作画面 | 画像から音声・動画 - 操作画面 | ||
![]() |
| ![]() |
|
パラメータ設定 | |||
|
| ||
注意事項 | |||
| |||
三、動画 2.6 モデルで何ができるか
動画 2.6 は、発話、対話、ナレーション、歌唱、ラップ、環境音声、混合音声などの音声タイプに対応しています。以下では、能力の側面からモデルが実現できる内容をご紹介し、2.6 の制作の範囲を素早く把握できるようにします。
クイックガイド👉 ソロ独白💬、ナレーション解説🗣️、複数人対話👥、音楽パフォーマンス🎵、クリエイティブシーン🌈
3.1 ソロ独白💬
機能説明:画面の中の人物がカメラに向かって直接語りかけ、感情は自然で、口の動きが同期しています。
適用シーン:商品紹介、日常Vlog、ニュース報道、スピーチ。
| 商品展示:製品を展示し、セールスポイントを強調します。重要なのは、滑舌がはっきりしていて、口調が自然であり、製品の雰囲気にマッチしていることです。 | |
テーブルにはリップスティックのサンプルが両側にディスプレイされています。[白人系美容インフルエンサー]が、マットなダスティーローズ色のリップスティックを手に取ります。[白人系美容インフルーエンサー、甘くフレッシュな声]で:「Perfect for yellow undertones! Brightens the complexion without drying, and the finish looks beautifully soft all day.」背景:ソフトな美容系BGMが流れています。 |
視覚:ファッションライブ配信ルームで、服がハンガーラックにかかっており、全身鏡がホストの姿を映しています。台詞:[アフリカ系アメリカ人の女性ホスト]が体を回してスウェットシャツのフィット感を披露します。[アフリカ系アメリカ人の女性ホスト、明るい声]で:「360-degree flawless cut, slimming and flattering.」直後に、[アフリカ系アメリカ人の女性ホスト]がカメラに近づきます。[アフリカ系アメリカ人の女性ホスト、活気のある声]で: 「Double-sided brushed fleece, 30 dollars off with purchase now.」 |
| 日常Vlog:日常生活のワンシーンを、リラックスした自然な雰囲気で表現します。 | |
浜辺で波が岸に打ち寄せています。[白人系の若い男性]が、後ろ向きに被った野球帽姿でカメラを持ち、口元に笑みを浮かべて自撮りをしています。[白人系の若い男性、陽気な声]で:「The weather is amazing today! All my worries feel totally gone. I've been needing a day like this—sun, breeze, just the sound of the waves.」カメラはVlog風のクローズアップスタイルです。 |
キッチンで、オーブンの扉が半開きになっており、テーブルの上に黄金色のシフォンケーキが置かれています。[ラテン系の少女]が手で優しくケーキを割り(ケーキくずがポロポロと落ちる)、目が嬉しそうに輝いています。[ラテン系の少女、誇らしげで甘い声]で: "My first success. Look at that crumb!"" 背景:明るいBGMが流れています。 |
| ニュース報道:専門性、フォーマルさ、安定した口調を重視します。 | |
視覚:屋外ショッピングモールの前で、群衆が集まり歓声を上げています。台詞:[アフリカ系アメリカ人の男性リポーター]が群衆の隣に立ち、マイクを持ち、体をやや横向きにしています。[アフリカ系アメリカ人の男性リポーター、落ち着いた声]で: 「Now we can see the atmosphere here is absolutely electric. Let's go check it out together! There's so much happening all at once.」背景:賑やかな群衆の声とイベントBGMが聞こえ、所々でイベントの様子がクローズアップで映し出されます。
|
スポーツニューススタジオでは、キャスターの背後にあるスクリーンにバスケットボールの試合リプレイが映し出されています。[スポーツキャスター]がニュースデスクの後ろに座り、指先で軽く机をトントンと叩いています。[スポーツキャスター、明瞭で力強い声]で:「Look at this clutch play! He stepped up when it mattered most, hitting the shot that decided the championship! This game-winning shot sealed the victory outright.」背景:試合会場からの歓声が聞こえ、カメラはスポーツキャスターの顔にフォーカスしています。 |
| スピーチ・プレゼンテーション:確固とした、説得力のある表現を示します。 | |
国際テクノロジーサミットのメイン会場で、各国の代表者たちが席を埋めています。[インド人起業家]がステージ中央に立ちます。[インド人起業家]は聴衆をしっかりと見つめ、手は自然に身体の横に下ろしています。[インド人起業家、大きな声]で: "A decade ago, the world saw India through call centers.." 一瞬の間を置き、彼は両手を上に広げます。[インド人起業家、熱のこもった声]で: "Now, Indian innovation is reshaping the world with tech!" カメラがインド人起業家の顔にゆっくりとズームインしていき、スピーチを終えると、彼は両手を合わせて祈りのポーズを取ります。聴衆から拍手が沸き起こります。 |
視覚:TEDスタイルの円形ステージで、話者が座り、観客は影の中に隠れています。台詞:[話者]は少し前傾姿勢になり、両手を軽く演台に置いています。[話者、誠実で優しい声]で: 「Your biggest limitation isn't your ability; it's the story you tell yourself about your ability.」 背景:観客から軽い笑い声、続いて拍手が起こり、カメラはミドルクローズアップで話者の顔にゆっくりと、わずかにズームインし続けます。 |
3.2 ナレーション解説🗣️
機能説明:画面外の声が、映像の内容を語り、説明し、評論します。
適用シーン:商品説明、スポーツ実況、ドキュメンタリー、ストーリーテリング。
| 商品解説 / 製品説明:静物映像 + 専門的な解説。ECショート動画に適しています | |
視覚:整然としたリビングルームの中央に、白色のロボット掃除機が置かれており、周りに散らかりはありません。台詞:[ナレーター、柔らかい女性の声] 穏やかな掃除機の音を伴って:「Are you still troubled by dust in hard-to-reach corners? This robotic vacuum features edge-to-edge cleaning, leaving no gaps behind—making your life easier and effortless!」 カメラは掃除機の清掃経路を密着して追います。 |
視覚:明るい週末の朝、リビングルームは光に満ち、ヴィンテージグリーンのブルートゥーススピーカーがコーヒーテーブルに置かれています。台詞:[白人系の若い男性]がコーヒーカップを手にスピーカーへ歩み寄り、スイッチを軽くタップします。[白人系の若い男性、カジュアルな声]で: "Good morning. With 360-degree surround sound, you can enjoy rich, full music from anywhere in the room." 話し終えると、若い男性はその場を離れ、カメラはスピーカーにフォーカスします。 |
| スポーツ実況:激しいリズムと試合の雰囲気が求められます。 | |
視覚:ワールドカップ決勝戦で、ライトがまばゆく輝き、スタンドは興奮の渦に包まれています。台詞:(キャラクターなし、ナレーションのみ)[ナレーター、興奮した男性の声] ボールがネットを揺らす瞬間に:"The game is over!" 背景:サポーターたちの歓声が沸き起こり、カメラはゴールキーパーの視点からボールがネットに入る瞬間を捉えます。 |
F1レース場のメイングランドスタンド前を、マシンが疾走します。[ナレーター、興奮した男性の声]が言う:「Final lap! He's on the inside! Oh what a move! They are side by side to the line! Unbelievable!」背景:エンジンの轟音とタイヤのきしむ音が響き、カメラが並走する2台を追います。 |
3.3 複数人対話👥
機能説明:複数のキャラクターによる対話で、キャラクター間の口調の切り替えが自然に行われます。
適用シーン:インタビュー番組、ドラマ演出、日常会話、コメディコント。
| インタビュー番組:二人が座って対談し、口調が自然に切り替わります。 | |
視覚:レンガ壁に防音パネルが貼られたモダンなインダストリアルスタイルの録音スタジオで、機材が整然と配置されています。台詞:[白人男性司会者]がマイクの前に座り、少し前かがみになります。[白人男性司会者、落ち着いた声]で: "Today we're excited to have Dr. Sarah Miller from Stanford AI Lab. Sarah, your research on neural networks is groundbreaking." この間、[アフリカ系アメリカ人女性ゲスト]は沈黙しています。直後に、[アフリカ系アメリカ人女性ゲスト]が顎をわずかに上げ、マイクを持ちます。[アフリカ系アメリカ人女性ゲスト、優しい声]で: "Thank you for having me."この間、[白人男性司会者]は沈黙しています。 |
ロサンゼルスのモダンポッドキャストスタジオで、温かな黄色のフィルターがベージュのファブリックソファを包んでいます。[白人女性司会者]がカメラを見つめ、指をソファの肘掛けに軽く置いています。[白人女性司会者、甘い声]で: "The Santorini sunset in Greece is absolutely breathtaking! Highly recommend adding it to your bucket list."この間、[アフリカ系アメリカ人男性司会者]は沈黙しています。直後に、[アフリカ系アメリカ人男性司会者]が軽くうなずきます。[アフリカ系アメリカ人男性司会者、優しい声]で: "Exactly, that's the perfect spot to unwind and escape the daily grind."この間、[白人女性司会者]は沈黙しています。カメラは白人女性司会者とアフリカ系アメリカ人男性司会者とのやり取りにフォーカスします。 |
| ドラマ演出(ショートドラマ):ショートストーリー、感情的な対話に使用します。 | |
視覚:薄暗いカジノのVIPルームで、中央に緑色のフェルトポーカーテーブルがあり、漂う煙が渦巻いています。壁のランプが温かく、シルエットのような光を落としています。台詞:[スーツ姿の男、ひじをテーブルについて前のめりに、低い男性の声]:"Three rounds to decide. Win, and all the chips are yours. Lose, and tell me the real reason you're getting close to him."[巻き毛の女性、指でテーブルの端をそっとなぞり、赤い唇がほのかな微笑みを浮かべ、クールで魅力的な女性の声]: "I don't care about the chips." |
視覚:極寒の荒野。探検家たちが火を起こし始め、薪がぱちぱちと音を立てています。台詞:[探検家A、疲労の中にも確固たる決意を込めて]: "The fire is lit."[探検家B、希望に満ちた声で、話者が切り替わる]: "We're saved!"効果音:燃える炎のぱちぱちという音、遠くからの狼の遠吠え、吹きすさぶ極寒の風の音。 |
| 日常会話:リラックスした、自然な、話し言葉。 | |
視覚:ニューヨークのオフィスビル内のオフィスエリア。クールトーンの照明が作業スペースを照らし、プリンターが作動しています。台詞:[男性社員]と[女性社員]がプリンターの傍らに立ち、向き合っています。[男性社員、落ち着いた声]:"How's the project report coming along? Manager needs it this afternoon." この間、[女性社員]は沈黙しています。直後に、[女性社員、効率的な声]で返答します:"Almost done. I'll send it in 10 minutes."この間、[男性社員]は沈黙しています。カメラは2人のやり取りにフォーカスし、プリンターの音とオフィスの環境音が聞こえます。 |
視覚:朝のキッチン。窓から差し込む太陽の光がカウンターに注ぎ、フライパンがじゅーじゅーと音を立てています。台詞:[彼氏]が焦げた目玉焼きをテーブルに置き、誇らしげに片眉を上げます。[彼氏、明るい声]: "Try my breakfast made with love!"この間、[彼女]は沈黙しています。直後に、[彼女]が身を乗り出し、軽く匂いを嗅いで眉を上げます。[彼女、からかうような声]:"The love is definitely felt, it's just a bit burnt." この間、[彼氏]は沈黙しています。そして、二人は目を合わせ、一緒に笑いながら言います:"It's just a bit burnt." カメラは目玉焼きのクローズアップから、微笑み合う[彼氏と彼女]へとカットします。 |
| コメディコント:テンポが速く、ギャップが強い | |
視覚:コメディステージで、スポットライトが中央に集中し、観客は影の中にいます。台詞:[スタンダップコメディアン]がステージ上でマイクを持ち、体を少し揺らしています。[スタンダップコメディアン、ユーモアのある男性の声]:「My gym trainer said the first step is hardest... Lies! The first step is easy. It's the 5,000th step that's trying to murder you!」言い終えると、コメディアンは肩をすくめて両手を上げます。背景:観客からの笑い声と拍手が聞こえ、カメラはコメディアンの顔にフォーカスしています。 |
視覚:桜の広場で、ピンクの花びらが舞い、噴水の近くに薄らと廃墟が見えます。台詞:[ピンクのメカ少女]がエネルギー翼を広げ(大きな警報音と共に)、慌ててコントロールスクリーンを見下ろします。[ピンクのメカ少女、慌てた声]: "Oh no, only five percent battery left!"直後に、ピンクのメカ少女は噴水の近くに着陸し、モバイルバッテリーを探るように差し込み、巨大な怪物を一瞥します。[ピンクのメカ少女、きまり悪そうな声]:"Um, could you please wait while I recharge?" 巨大な怪物は首をかしげて困惑したような低い唸り声を上げ、爪を引っ込め、瓦礫に腰を下ろします。カメラは、ピンクのメカ少女の慌ただしい動作にフォーカスします。 |
3.4 音楽パフォーマンス🎵
| 歌唱 | |
視覚:陽光が降り注ぐ庭園の小道。デイジーが満開で、蝶が優雅に舞っています。台詞:[アジア人女性]がゆるやかな編み込み髪でゆっくり歩き、フローラルドレスがデイジーに触れます。[アジア人女性、優しい声]で歌います:"In this tranquil morning, I've found my way. With dreams in my heart, there's light in my days." アジア人女性が手を伸ばして花々をそっと撫でると、白い蝶が驚いて飛び立ちます。 |
視覚:ブルーの光に包まれたライブハウス。中央にハイバースツールが置かれ、観客は影の中にいます。台詞:[ショートヘアの女性歌手]がハイバースツールに座り、木製ギターを抱え、指でそっと弦をかき鳴らしています。[ショートヘアの女性歌手、心のこもった声]で歌います: "And I will try to fix you, all night long..."サビに差し掛かると、[ショートヘアの女性歌手]は観客席の方を見つめます。背景:グラスが触れ合う音。カメラは、ショートヘアの女性歌手の弦を弾く指と、彼女の表情に交互にフォーカスを切り替えます。 |
| ラップ(Rap) | |
視覚:ニューヨーク、ブルックリン──落書きだらけの壁の前で、ストリートの熱気が強く、近くでブレイクダンサーがフリースタイルで踊っています。対象:ゴールドチェーンとオーバーサイズのフーディを着たアフリカ系アメリカ人ラッパーが、ビートに合わせて揺れながらカメラに向かっています。音声:[アフリカ系アメリカ人ラッパー、エネルギー溢れる男性の声] ドラムビートに乗せてラップ:"Yeah, from the bottom to the top, I’m shining bright like a star. Brooklyn streets raised me tough, fought through the dark. Gold chain swingin’, flow hits hard, grindin’ daily, never bored. Now I’m livin’ in the light, this is my life, raw and hardcore!"背景:重低音のベースとターンテーブルのスクラッチ音が重なる。カメラは、彼の表情、手のジェスチャー、ブレイクダンサーたちのクローズアップショットへと素早く切り替わります。 |
視覚:ストリートステージで、観客が周りに立っています。台詞:[若手ラッパー]がシルバーチェーンと黒のフーディを着て、ビートに合わせて体を揺らしています。[若手ラッパー、ダイナミックな男性の声]でラップ:"Yo, pavement to stage, flow lit, crowd goin’ wild! Mic in my grip, dreams unchained, let the rhythm ride! Raw vibe, sharp rhymes, keep the energy high—this is how we fly, no need to deny! Grind hard, spit fire, make the moment mine, street-born rhythm, let times shine!" カメラは若い白人ラッパーの動きにフォーカスします。
|
| グループ合唱 | |
視覚:明るいリハーサルルーム。窓から太陽の光が差し込み、スタンディングマイクが部屋の中央に置かれています。台詞:[学園バンドの女性リードシンガー]がマイクの前に立ち、目を閉じています。他のメンバーは彼女を取り囲むように立っています。[学園バンドの女性リードシンガー、豊かな声]でリードします:"I will try to fix you, with all my heart and soul..." 背景はアカペラのハーモニーで、カメラはバンドメンバーの周りをゆっくりと旋回します。 |
視覚:大学の屋上で夕日が沈む時、金色の夕焼けが地面を包み込んでいる。台詞:[アジア系の男女学生たち]が輪になって座り、アコースティックギターを弾いています。表情は深く没入している。[アジア系の男女学生たち、若々しいコーラス]で歌います: "Starlight all over the sky, please light the way ahead; let our youthful voices sail away with the wind."カメラは一人ひとりの顔をゆっくりと旋回し、ギターの弦が夕日の中で金色の光を放っています。 |
| 楽器演奏 | |
視覚:伝統的な書斎。壁に掛け軸が掛かり、机の上には柔らかい光に包まれた古琴が置かれています。[文人]が机の前に静かに座り、指先で古琴の弦をそっと弾いています。表情は穏やかです。背景:巻物を広げる音と、古琴の調べが聞こえます。カメラは、弦を弾く文人の指にフォーカスします。 |
視覚:ネオンの光に照らされた雨の夜の街。雨粒が地面に落ちています。台詞:[チェリスト]が街灯の下に立ち、髪の先に雨滴がついています。彼はチェロを弾いています。背景:ゆっくりと情感豊かなチェロのソロ曲が流れています。カメラは、チェロの弦の上で震える水滴と、[チェリスト]の閉じた目にフォーカスします。 |
3.5 クリエイティブシーン🌈
| 映画・テレビの特殊効果 | |
視覚:居心地の良いリビングルーム。暖炉では薪が燃えており、ソファがコーヒーテーブルのそばに置かれています。台詞:[男性主人公]がリビングルームに入ってきます。[男性主人公、優しい声]で: "Babe, taking a break from work?" この間、[女性主人公]は沈黙したまま微笑み、うなずきます。直後に、男性主人公がソファへ歩み寄り、カップを優しく置き、手を伸ばして女性主人公の髪をくしゃくしゃっと撫でます。カメラは2人のやり取りにフォーカスします。 |
視覚:南極の風景。そびえ立つ氷の構造物。全体的なトーンは冷たく、白く、凍えるような色調。氷河が大きな音を立てて裂け、続いて氷が砕ける音がし、調査隊のスノーモービルのエンジンが轟音をあげる。カメラは後退する調査隊と、崩れ落ちる氷の塔を追います。 |
| 生活シーンの雰囲気 | |
視覚:午後の部屋。ブラインドから差し込む陽の光が床に縞模様の光の斑点を作っています。[ジンジャーキャット]が窓辺で横たわっています。[ジンジャーキャット]はゆっくりと呼吸し、背景には遠くの鳥の声と葉ずれの音が聞こえます。カメラは、猫の呼吸に合わせてゆっくりと動く光の斑点にフォーカスします。 |
視覚:真夜中のダイナーの風景。カウンターの明かりだけがついており、テレビには「Man Wandering in the Park at Midnight」という場面が映っています。台詞:[アフリカ系アメリカ人の店主]がテレビを見ます。[アフリカ系アメリカ人の店主、深みのある声]:"I wonder who needs help this time?" アフリカ系アメリカ人の店主はしばらくテレビを見つめた後、表情が和らぎます。[アフリカ系アメリカ人の店主、優しい声]: "I see. It's a father carrying his daughter in his heart."カメラは、アフリカ系アメリカ人の店主の顔とテレビ画面に交互にフォーカスを切り替えます。 |
| ASMR | |
視覚:夜の図書館の修復室。暖かなデスクランプが古書を照らし、修復師は白い手袋を着けています。台詞:[古書修復師]が柔らかいブラシで古書の表紙をそっと払い(かすかなブラシの音)、マイクにブラシを近づけます。[古書修復師、囁くような声]:"These pages have been asleep for two hundred years. Today, we wake them gently." 背景:本のページがかすかにさらさらと音を立て、カメラはクリーニングの動作にフォーカスします。 |
視覚:映画的な雨の日のカフェ。窓に雨が跳ね、全体的に涼やかなブルーグリーンのトーン。台詞:[ブロンドのフランス人女性]が入ってきて着席し、髪が少し湿っています。彼女はカメラを直視します。[ブロンドのフランス人女性、低い声]: "You don't remember the moment, you just remember the feeling." その後、カメラは中央に現れた金色の香水のボトルにフォーカスし、ブロンドのフランス人女性の顔にズームインします。 |
| クリエイティブ広告 / 素材 | |
視覚:プロダクト展示シーン。シンプルで明るい背景の中央に、[レーズン]が置かれています。台詞:[レーズン]がねじれて水分を吸収し、ふっくらとした緑のブドウへと変形します。[オフスクリーンの声、歯切れの良い女性の声]:"Don't want to end up shriveled like I was? Hydrating face cream quenches your skin's thirst and turns back time." 背景:水がはねる音が聞こえ、カメラが引いてフェイスクリームを映し出します。 |
【シーン】 映画のような質感の雨の日のカフェ。冷ややかな青緑の色調で、雨が窓を濡らしている。【主体】 カフェに入ってきて席に着く [金髪のフランス系女性]。髪は少し濡れており、優雅な表情をしている。【オーディオ】 [金髪のフランス系女性、低い女性の声] カメラを直視して言う。「You don't remember the moment, you just remember the feeling.(その瞬間を覚えているんじゃない、その感覚を覚えているのよ)」。カメラは女性の顔にフォーカスし、その後中央に香水瓶が浮かび上がる。 |
四、優れたプロンプトの書き方
「動画 2.6 モデル」を使用する際は、【見たい映像】+【起きている動作】+【希望する音声】を記述するだけで、高品質な音声付き動画を生成できます。以下の公式を参考にしてください:
💡プロンプト = シーン(シーンの描写)+ 主体(主体の描写)+ 動き(動きの描写)+ オーディオ(対話 / 歌唱 / 音声 / インストゥルメンタル)+ その他(スタイル/感情/カメラワーク)
- 対話:キャラクタータグ + 「セリフ」 + 感情 + 話す速さ + 声色
- 単独の役:声の属性を明確にする(例:【男が話す】、「セリフ」 + 低い + 速い)。
複数の役:明確なタグで区別する(例:【キャラクターA、怒って話す】「セリフ」 【キャラクターB、冷静に答える】「セリフ」)。
- 歌唱:「歌詞の内容」 + 歌唱スタイル + 伴奏の描写 + 感情
- スタイル:ポップス (Pop)、オペラ (Opera)、カントリー (Country) など。
感情/テクニック:甲高い声で歌う (High-pitched)、ビブラート (Vibrato)、優しく歌う。
- ラップ:「セリフ(韻を踏む)」 + リズムのジャンル + 感情
- リズムのジャンル:強烈なBoom Bapビート、Trap Style Beat、高速なFlow。
内容:「セリフ」は押韻 (Rhyme) と拍子 (Meter) を体現している必要がある。
- 音声:音源(動作/物体)+ 状態 + 専門的なオノマトペ
- 構造:【物体:木のドア】勢いよく【動作:閉まる】 + 【オノマトペ:バン】。
材質/状態:ガラスが割れる、金属がぶつかる、耳障りなブレーキ。
- 環境音:シーン + 音の構成要素 + 空間の残響
- 要素:雨音、虫の声、群衆のささやき、車の流れ。
空間感:がらんとした講堂の反響 (Reverb)、狭い室内の残響 (Small Room Acoustic)。
- インストゥルメンタル(純音楽):楽器の種類 + 音楽ジャンル + 感情
- 構造:ピアノ演奏による + ジャズ (Jazz) + 憂鬱さ (Melancholy)。
ジャンル:クラシック (Classical)、ロック (Rock)、エレクトロニック (Electronic)。
*プロンプトを記述する際、音声の内容を明確にするために引用符「 」を使用することをお勧めします。
4.1 重要チュートリアル:複数人対話プロンプトの例
原則 | コアとなる原則 | 記述要件と例 | 誤った記述例 |
| P1. 構造化された命名 | 役割タグは一意であること、常に一貫していること。 | [役割 A:黒服のエージェント] と [役割 B:女性アシスタント]。 ❌ 代名詞や同義語の使用は避けること。 | [エージェント] が話し... その後、彼 がまた話し... |
| P2. 視覚的なアンカリング | 台詞をその役割の固有の動作に紐づける。 | 動作を先に記述し、後に台詞を続ける:黒服のエージェントは勢いよくテーブルを叩いた。 [黒服のエージェント、怒って叫ぶ]:「真実はどこだ?」。 | [黒服のエージェント]:「真実はどこだ?」(モデルは誰がテーブルを叩いたのか認識できない) |
| P3. オーディオの詳細 | 各役割に固有の声色と感情タグを付与する。 | [黒服のエージェント、声はしわがれ、低い]:「動くな。」 [女性アシスタント、声は澄んで、恐怖している]:「怖いです。」 | [男] が話し... [女] が話し...(声の特徴が曖昧すぎて、混同しやすい) |
| P4. 時間軸の制御 | 明確な接続詞を使用して、話す順序とリズムを制御する。 | [黒服のエージェント]:「なぜだ?」。その直後、[女性アシスタント]:「時間切れだからよ」。⚠️(オプションの強い制約:二人の間に 「ここで話者が切り替わる」 を挿入) | [黒服のエージェント]:「なぜだ?」 [女性アシスタント]:「時間切れだからよ」。(モデルは一人の連続した音声として生成しやすい) |
4.2 一般的なオーディオトリガー(トリガーワード)
オーディオタイプ | カテゴリ | トリガーワード | 例 |
ボイス | 表現方法 | 話す、尋ねる、伝える、説明する、ため息をつく、朗読する、独白、ナレーション、ささやく |
|
感情・態度 | そっとささやく、小声で話す、興奮して話す、真剣に話す、優しく話す、フォーマルに話す、不満を述べる、ためらいがちに話す、冷静に話す、皮肉を言う、励ます |
| |
声の特質 | しわがれた、明瞭な、震える、甘い、低い、早口で、ゆっくりと、途切れ途切れに |
| |
対話 | 相互作用の形式 | 尋ねる、答える、続けて話す、応える、口論する、議論する、交渉する、慰める、説得する |
|
動作音 | 叫ぶ、不満を述べる、からかう、冗談を言う、つぶやく、驚きの声を上げる、泣く/すすり泣く、悲鳴を上げる、大笑い/忍び笑い、ため息をつく |
| |
歌唱 | テクニック・スタイル | アカペラ、優しく歌う、鼻歌を歌う、大声で歌う、美声、ポップス調、ビブラート、ファルセット、ハモり |
|
感情・状態 | 感情的に歌う、優しく歌う、憂鬱に歌う、楽しそうに歌う、音痴 |
| |
ラップ | 専門用語 | ラップ、ラップ、リズム感、韻、フロウ、速い、遅い、強烈なリズム、即興、重低音、早口 |
|
音声 | 日常の動作 | 栓を開ける、水を注ぐ、ページをめくる、叩く、落とす、引き裂く、持ち上げる、置く、クリックする、咀嚼する、飲み込む、足音、早足の足音、ドアの開閉音 |
|
材質の衝突 | チリン、パチン、カチッ、ドスン、バン、弾ける音、擦れる音、引っ掻く音、ガラスが割れる、金属がぶつかる |
| |
自然音 | ゴウゴウ(水)、ヒューヒュー(風)、パチパチ(火)、ゴボゴボ(泡立つ)、雷鳴、雨粒の音、嵐、雪を踏む音 |
| |
機械音 | 轟音、ポツポツ(滴る)、ブーン、カチカチ、始動音、警報音、ブレーキ音、機械の稼働音/歯車の音 |
| |
楽器音 | ピアノの音、ギターの弦を弾く音、バイオリン、ドラムの音、低音ベース |
| |
環境音 | 都市 | 車の流れ、人々のささやき、地下鉄、構内放送、街の風の音、工事の音、飛行機の飛行音、クラクション、市場のざわめき |
|
自然 | 波の音、風の音、鳥のさえずり、虫の音、小川の音、滝の音、動物の遠吠え、夜の虫の音、雨林 |
| |
室内 | エアコンの音、キーボード音、紙が擦れる音、微かな残響、バー/カフェのBGM、病院の廊下の静かな雰囲気、図書館の静寂、炉で燃える音 |
|
五、動画 2.6 図生音画 新規追加「音色コントロール」機能
5.1 能力紹介
連続創作やキャラクターの声優付け時に、音色が統一されず、個性に欠けることに悩んだことはありませんか?「動画 2.6 モデル」に新機能「音色コントロール」が追加されました!あなたは目標とする音色を選ぶだけで、モデルがその音色を精密に再現し、あなたが指定した内容を演じさせることができます。しかも操作は超簡単。「映像内容 + 音声テキスト + 目標音色」という3つのキー情報を提供するだけで、理想的な音声付き動画コンテンツを迅速に生成できます。
音色コントロール能力の追加により、以下が実現可能になります:
- 音色安定・高忠実度:音色が動画全体を通じて声質が安定して出力され、目標音色を高度に再現。同一音色を複数の動画で再利用でき、IPキャラクターやブランドイメージなど、長期的に統一した声線が必要なシーンに適応。
- 話し方のスタイルを柔軟に転移:同一音色を、ニュース読み上げ、会話、スピーチなど多様なシーンで使用可能。自動的に適切な口調とリズムに適合し、声質再現とシーン適合のバランスを実現。
- 異言語間での自然な適応:追加設定不要で、中国語音色が自然な英語の台詞を流暢に表現(逆も同様)。現在、中英双方向の適応をサポート。
- 指示駆動による精密バインド::プロンプト内で「キャラクター@音色名」と入力すると、モデルが自動的に該当音色を対応するキャラクターにバインドし、マルチキャラクター対話における音色の区別を容易に実現。
同時に、「音色コントロール」機能は多様な創作シーンに適用可能です:
| バーチャルキャラクター専用ボイス | 商品紹介と解説 | マルチキャラクター音声コントロール | コンテンツナレーションと演 |
|
5.2プラットフォーム機能使用ガイド
機能を使用する前に、入力内容および【音色コントロール】機能使用期間中に公開する音声が、ご自身によるオリジナル作品であるか、合法的な使用権限を既に取得していることをご理解・ご確認ください。
動画 2.6 の音色コントロール機能は、Web版とAPP版で同時にリリースされており、現在は【図生音画】で使用可能です(【文生音画】はまだ公開されていません)。以下では、専用音色の作成方法、および音色コントロールの効率的な使用テクニックを紹介します。
専用音色の作成方法
Web版-操作画面 | App版-操作画面 | ||
| ![]() | ![]() |
|
操作手順 | |||
2. アップロード完了後、システムが自動的に音色を抽出します。抽出された音色に対して、名前の変更、削除などの操作が可能で、最大200個の音色作成をサポートします。 | |||
目標音色の呼び出し方法
方法一:「@」記号によるクイック呼び出し | 方法二:「音色リスト」からの手動選択 | ||
| ![]() | ![]() |
|
操作手順 | |||
|
| ||
音色発効ルール | |||
| |||
5.3 音色コントロール プロンプト チュートリアル
プロンプト = シーン(シーン記述)+【主体(主体記述)@音色名】 +動き(動き記述)+音声(対話 / 歌唱 / 音響効果 / 純音楽)+その他(スタイル/感情/レンズ)
推奨される記述形式:
タイプ | プロンプト形式 | プロンプト例 | 操作図示 |
単独人物の発話/歌唱 | [役名] @音色 :「台詞内容。」 | 警察と犯罪者による取り調べ場面。[刑事・李 @王総の音声プロファイル] が立ち、詰問する:「証拠はどこだ?」[容疑者・張 @小紅の音声プロファイル] はうつむき、微かに震えながら:「何も知りません…」** 全体は厳粛で緊張した雰囲気。近接ショットで二人の対話に焦点を当てる。 | ![]() |
複数人物の対話/歌唱 (二人の対話シーンへの適用を推奨。3人以上のシーンでは効果が低下) | [役名A] @音色A :「台詞A。」 [役名B] @音色B :「台詞B。」 | 家族の別れの場面。[父 @自分の音声プロファイル] が軽くうつむき、声を潜めて:「列車がもうすぐ発車するよ…」[娘 @親友の音声プロファイル] はうつむき涙をぬぐいながら:「パパ、行かないで…」** 全体は切ない情感に包まれ、ミディアムショットで別れの瞬間をとらえる。 | ![]() |
推奨されない記述形式:
以下の記述形式は採用しないでください——モデルが音色バインド関係を正しく認識できず、音色発効異常の原因となります。
エラータイプ | プロンプト形式 | 例 |
役者主体が欠如し、直接音色を主体とする | @音色 :「台詞の内容。」 |
|
複数役者が同一音色に重複バインド | [役者A] @音色1。 [役者B] @音色1。 |
|
音色マークの位置が誤っている |
|
|
音色マークが台詞中に埋め込まれている |
|
|
音色が視覚的動作 / 非人声の音声にバインドされている |
|
|
無効なバインド(発話していない役者へのバインド / 属性衝突) |
|
|
六、视频 2.6 模型价格動画 2.6 モデルの価格
「動画2.6モデル」の料金は以下の通りです:
1)音画同期を有効にする場合:10クレジット/秒(高品質)
*音色コントロールを追加使用する場合は、さらに+2クレジット/秒(メンバーは音色コントロールを無制限に無料で使用可能)*
2)音画同期を無効にする場合:5クレジット/秒(高品質)、3クレジット/秒(標準)
七、FAQ(よくある質問)
Q:現在、モデルはどの言語の音声出力に対応していますか?
- 現在のモデルは、中国語と英語の音声出力のみに対応しています。他の言語を入力された場合、自動的に英語に翻訳されてから該当の音声が生成されますが、全体的な体験には影響ありません。より多くの言語の音声出力についても拡張を急いでおり、まもなく皆様にご提供できる予定です。
Q:音声のみを生成し、動画は不要ということは可能ですか?
- 可能です!プラットフォームの【音声生成】モジュールへアクセスし、ニーズに応じて【テキストから音声】または【動画から音声】を選択してください:
- テキストの説明を入力するだけで単体の音声を生成
- または動画をアップロードして音声を抽出
- 動画を生成することなく、純粋な音声制作のニーズを満たせます。
Q:生成効果を向上させるにはどうすれば良いですか?
- より良い生成結果を得るために、以下の点から最適化することをお勧めします:
- プロンプトの最適化:記述は具体的で明確にし、シーン、音声タイプ、スタイルなどの核となる要素を明確にしてください。プロンプトに一度に多くの複雑な指示を詰め込みすぎるのを避け、できれば箇条書きで記述してください。
- 画像とテキストの一致を強化:参考画像を使用する場合、画像の内容とテキストの記述が一致していることを確認してください。例えば「屋外キャンプ」を描写する場合、参考画像として室内の写真を使用することを避け、情報の矛盾を減らしてください。
- パラメータ設定の正確な設定:実際のニーズに基づいて、動画の長さ、解像度などのパラメータを調整し、デフォルトのパラメータが期待に沿わないことを避けてください。
- 制作シーンの単純化:1回の制作では、可能な限り1つの核となるテーマに焦点を絞り、過度に多くの要素(例:複数の環境音と複雑なボイスを同時に加えるなど)を積み重ねないでください。これにより、モデルがより安定して理想的なコンテンツを生成できます。



































































