AI動画生成プラットフォーム「Vidu」、音声・映像統合生成「Vidu Q3」など大規模アップデートを発表

目次 [ close ]

Vidu Q3：ストーリーテリングのための音声・映像統合生成

今回発表された長編AI動画モデル「Vidu Q3」は、最大16秒のネイティブ音声・映像を単一パスで生成できる点が特徴です。音声と映像がモデルレベルで直接統合されるため、完全同期のストーリーテリングが可能になります。

Q3は、多言語音声生成、精密なリップシンク、映画的カメラ制御、シームレスなショット遷移、そしてネイティブ1080p出力に対応しています。テキストも視覚構成の一部として生成されるため、アニメーション、ショートドラマ、映画制作といった物語主導のフォーマットに特に適しています。

主な機能は以下の通りです。

音声・映像の同時生成：最大16秒のネイティブ音声・映像を単一パスで出力
多言語対応リップシンク：中国語・日本語・英語に対応し、キャラクターの口の動きが発話内容と完全同期
映画的カメラ制御：ドリー、パン、チルトの詳細指定、シームレスなカット割り制御
ネイティブ1080p（フルHD）出力：看板・字幕・UI要素などのテキスト情報も正確に表現
ストーリーボード編集：時間経過とテンポ調整が単一カット内で可能

活用シーンとしては、TikTokやInstagram Reels、YouTube Shortsといったショート動画プラットフォームでの短尺動画制作、日本語・英語・中国語に対応した多言語マーケティング動画の効率的な制作、アニメーションや映像制作におけるセリフ生成とリップシンクの自動化が挙げられます。

詳細はこちらをご覧ください:
https://www.vidu.com/ja/

Vidu Q2 Reference-to-Video Pro：制御可能なクリエイションの実現

「Vidu Q2 Reference-to-Video Pro」は、「あらゆるものを参照素材として活用できる」世界初の動画モデルとして登場しました。このモデルは、統合ワークフロー内で2つの動画参照と4つの画像参照を同時にサポートします。

クリエイターは、人物、シーン、アクション、表情、エフェクト、テクスチャといった要素を参照素材として組み合わせ、シーケンス全体を再生成することなく、要素の追加、削除、変更が可能です。これにより、AI動画生成は一発生成から参照駆動型編集へと進化し、プロフェッショナルな制作環境における改訂速度と一貫性の向上に貢献します。

主な機能は以下の通りです。

複数参照の同時活用：2つの動画と4つの画像を統合ワークフロー内で参照可能
要素の追加・削除・変更：全体を再生成せずに部分修正が可能
表情・感情転写：参照動画の表情や感情の流れを別の人物へ転写
動作再現：ダンスなどの動作を異なるキャラクターで再現
スタイル変換：動画全体を日本アニメ風、ピクサー風、クレイアニメーション風などに一括変換

詳細はこちらをご覧ください:
https://www.vidu.com/ja/ai-reference-to-video

その他の主要なアップデート

Reference Hub：AI動画主体ベース制作コミュニティ

Reference Hubは、世界初のAI動画主体ベース制作コミュニティです。Viduの参照駆動型動画生成フレームワークを基盤とし、クリエイターは8つの構造化された主体カテゴリから選択することで、一貫性と効率を向上させたプロフェッショナルグレードの動画を制作できます。

ローンチ時点で、カメラワーク、構図、ナラティブ構造、視覚スタイル、シーンデザイン、キャラクターパフォーマンス、アビリティ、ムードにわたる200種以上の厳選された主体が利用可能です。ユーザー独自の動画・画像素材をアップロードして主体として保存することもできます。

詳細はこちらをご覧ください:
https://www.vidu.com/ja/

Vidu Agent 1.0：ワンクリック動画制作を実現

Vidu Agent 1.0は、インテリジェントなプランニングとリアルタイム生成により、ワンクリックでの動画制作を可能にします。

新機能として、ユーザー独自のBGMファイルをアップロードして動画に自動同期する機能や、AI生成ナレーション音声の有無を選択できる機能が追加されました。ストーリーボードベースの編集により、シーン構成から映像生成、音声追加、BGM挿入までが自動実行されます。

Viduは、清華大学と共同開発した独自の高速化フレームワーク「TurboDiffusion」を採用しており、動画生成速度を従来比最大200倍に高速化し、生成品質を維持したまま推論を大幅に加速しています。この技術により、Agent機能の即応性が飛躍的に向上しました。

活用シーンとしては、企業マーケティングでの製品紹介動画やキャンペーン映像の社内制作、教育・研修における社内研修動画やeラーニング教材の量産が挙げられます。

詳細はこちらをご覧ください:
https://www.vidu.com/ja/

研究開発の実装速度とグローバルでの評価

Viduは、最先端の研究を実用可能なシステムへ迅速に転換し、制作ワークフローへ直接組み込む「研究開発の実装速度」を競争力の源泉としています。この開発思想は、「China Speed」として知られる、製品開発サイクルの圧倒的短縮による市場優位性の獲得を体現しています。清華大学との共同研究によるTurboDiffusionがその核心技術であり、OpenAI Soraをはじめとするグローバル競合との差別化要因となっています。

AI評測権威機関「Artificial Analysis」が発表した最新のText-to-Videoリーダーボードでは、Vidu Q3 ProがELOスコア1,241を獲得し、グローバル第2位にランクインしました。これは、Runway Gen-4.5、Google Veo 3.1、OpenAI Sora 2 Proといった主要な競合を上回る結果であり、Viduが世界トップレベルの動画生成プラットフォームとしての地位を確立していることを示しています。

リーダーボードの詳細はこちらでご確認いただけます:
https://artificialanalysis.ai/video/leaderboard/text-to-video

2024年4月のローンチ以降、Viduは200以上の国と地域で展開され、4,000万人以上のクリエイターと10,000以上の開発者・企業顧客にサービスを提供しています。プラットフォーム上で生成された動画は5億本以上に達し、その総出力の70%以上が商業プロジェクトとして活用されているとのことです。

急成長する動画市場とViduの貢献

日本国内の動画配信サービス市場は2024年度で約6,500億円規模に達し（※1）、グローバルではAI動画生成市場が2025年に約7.168億米ドル、2032年には25.629億米ドル（年平均成長率20.0%）へ拡大する見込みです（※2）。特にショート動画の視聴回数は急増しており、YouTube Shortsでは2021年の1日3億回から2024年には700億回超へと伸びています（※3）。

このような需要拡大の一方で、動画制作には撮影、編集、音声収録、アフレコなど多段階の工程が必要であり、クリエイター、広告代理店、マーケティング担当者にとって時間とコストが大きな負担となっていました。加えて、音声と映像の同期精度や多言語対応、カメラワーク制御など、プロレベルの表現を実現するには高度な技術と専門人材が不可欠でした。

ShengShu Technologyは、独自開発のU-ViTアーキテクチャを用いたマルチモーダル大規模基盤モデル技術を活用し、「音声と映像を一括生成し、制作工程を統合する」ことで、これらの課題解決を目指しています。