イスラエルのLightricksが、220億パラメータのオープンソースビデオ生成AI「LTX 2.3」を3月にリリースしました。4K解像度・最大50FPSで最大20秒の動画と音声を単一パスで同時生成できる点が最大の特徴です。
LTX 2.3はDiT(Diffusion Transformer)ベースのアーキテクチャを採用し、新しいVAE(変分オートエンコーダ)パイプラインによりシャープなディテールを実現しています。音声と動画はアーキテクチャレベルで同期されており、後処理なしで一体的な映像作品を生成できます。また、ネイティブで縦型9:16のポートレートモードにサポートし、24/48FPSオプションも選択可能です。従来の「後からクロップ」という回避策が不要になった点も注目されています。リリースと同時にデスクトップビデオエディタも公開され、コンシューマー向けハードウェアでモデル全体をローカル実行できるようになりました。
X上では「映画品質ビデオ生成の民主化における大きな前進」「コンシューマーハードウェアでの効率性が評価」といった声が上がっています。Hacker Newsでは「モデル重みとデータセット公開は商用AIビデオモデルでは珍しい透明性」と好評を博しています。ライセンスはApache 2.0で商用利用が可能ですが、年間売上1,000万ドル超の企業が製品に組み込む場合はLightricksとの商用ライセンス契約が必要です。モデルチェックポイントはHugging Faceで、推論コードとLoRAトレーナーはGitHubで公開されています。