← 2026-03-31
Open Source Community 2026-03-31 Source →

Lightricks、LTX 2.3をオープンソース公開 — 220億パラメータで4K・50FPS映像と同期音声をワンパスで生成、Sora撤退と同時期の「民主化」

動画AI企業のLightricksは2026年3月5日、オープンソースの映像生成モデル「LTX 2.3」を公開しました。220億パラメータのDiffusion Transformer(拡散変換器)アーキテクチャを採用し、4K解像度・50FPS・最大20秒の映像と同期音声を単一フォワードパスで生成できる初のオープンソースモデルとなっています。OpenAIがSoraのシャットダウンを発表した直後というタイミングもあって、「クローズドモデルが撤退する一方でオープンソースが肩を並べた」という文脈でクリエイターコミュニティに大きな衝撃を与えました。

技術的な革新 — なぜ「単一パス」で音声と映像が同時生成できるのか

LTX 2.3の核心は、映像フレームと音声を同一のノイズ除去プロセスで統合処理する設計にあります。従来のモデルは映像を生成してから音声を別処理で付与するのが一般的でしたが、LTX 2.3では階層的な時間アテンション(フレーム・セグメント・クリップの3段階)によって、口の動き・環境音・音楽が映像と自動的に同期します。また再構築されたVAE(変分オートエンコーダ)によりテクスチャや輪郭の精細さが向上し、縦型フォーマット(1080×1920)をネイティブに生成できるため、短尺動画コンテンツへの対応も標準機能として備えています。モデルはHugging FaceでApache 2.0ライセンス(年収1,000万ドル以下の企業は商用利用無制限)として公開されており、ComfyUIでのローカル実行にも対応しています。

X上ではクリエイターコミュニティが「6ヶ月前には科学SFだった技術がオープンソースで利用可能になった」と驚きをもって歓迎し、Redditではr/StableDiffusionで700以上のアップボートを集めながら実際の生成サンプルを比較する投稿が相次ぎました。Hacker Newsでは独立した第三者評価を求める声とともに、Diffusion Transformerアーキテクチャの効率性についての技術的議論が展開されています。

現時点での限界と今後の展望

4K生成には48GB VRAMが必要なため、完全な解像度での出力は現状プロ向けGPUに限られます。また同期音声は環境音や音楽は得意ですが、複雑なダイアログの精密なリップシンクは現バージョンでは不安定とされています。AMDやApple Silicon(MLX)への移植もコミュニティが進めていますが、まだ実験段階です。それでも、閉鎖型の商用モデルだけが先端技術を独占していた動画生成AI分野に、本格的なオープンソースの競合が誕生したことは、映像制作ツール全体の価格競争を促進する転換点となりそうです。

関連リンク