イスラエルのAI企業Lightricksが3月8日、オープンソースの動画生成モデル「LTX-2.3」をApache 2.0ライセンスでリリースしました。22億パラメータを持つこのモデルは、4K解像度・50FPSの動画とネイティブ音声を単一パスで同時生成できる点が大きな特徴です。
LTX-2.3の革新的な点は、動画と音声を後処理で合成するのではなく、生成時点で同期させる設計にあります。環境音、会話、効果音がモデル自体によって映像と同時に決定されるため、従来の動画生成→音声追加という2段階ワークフローが不要になります。Lightricksによると、新しいVAE(変分オートエンコーダ)により細部がよりシャープになり、画像から動画への変換品質も向上しています。さらに、9:16のポートレートモード対応、24/48FPSオプション、ラストフレーム補間機能なども追加されました。
Reddit上のr/StableDiffusionコミュニティでは「オープンウェイトで4K+音声同時生成は画期的」と高い評価を受けています。また、LoRAトレーナーが付属しカスタマイズ可能な点がクリエイター層に好評です。Hacker Newsでも、消費者向けハードウェアでローカル実行できる点が注目されています。
モデルの重みはHugging Faceで公開されており、ベースチェックポイント、FP8量子化版、蒸留モデルの3種類が利用可能です。ComfyUIは初日からサポートしており、LTX Desktop Betaという無料のデスクトップアプリケーションも提供されています。オープンソースの動画生成分野において、商用利用可能なライセンスで4K対応を実現した初めてのモデルとして、クリエイターやデベロッパーの新たな選択肢となりそうです。