Lightricksが3月5日、オープンソースの動画生成AI「LTX 2.3」を発表しました。220億パラメータのDiffusion Transformerモデルで、4K解像度・50fpsの動画と音声を同時に生成できる初の本格的なオープンソースモデルです。
前バージョンのLTX 2.0から大幅に進化し、パラメータ数は約80億から220億へと約3倍に増加しました。最大20秒の動画クリップを生成でき、Apache 2.0ライセンスにより商用利用も制限なく可能です。技術的には階層型時間的アテンションシステムを採用し、フレームレベル、セグメントレベル(8〜12フレームのグループ)、クリップレベル(動画全体)の3つのスケールで処理することで、前バージョンと比べて一貫性が大幅に向上しています。
消費者向けハードウェアでの動作も考慮されており、RTX 3080でFP8量子化を使用して実行可能です。fal.aiのAPIでは1080pクリップ1秒あたり0.06ドルで利用できます。X上では「Soraなき後の動画生成市場で存在感を示している」との評価があり、r/StableDiffusionでは実際の品質テスト結果の共有が活発に行われています。
OpenAIがSoraを終了した今、オープンソースの動画生成AIが実用レベルに達したことは、クリエイターやデベロッパーにとって大きな選択肢の追加となります。