Tavusが2月18日にPhoenix-4を発表した。ガウシアン拡散モデルに基づくこの新技術は、感情制御とアクティブリスニング機能を備えた頭肩AIアバターを1080p/40fpsでリアルタイム生成することを可能にし、会話型AI動画の新たな標準を打ち立てた。
Phoenix-4は、Tavusの「Phoenix」シリーズの第4世代として登場した。このモデルは、数千時間に及ぶ人間の会話データで訓練されたハイブリッドガウシアン拡散アーキテクチャを採用している。
技術的な革新点として、Phoenix-4は感情状態の生成と制御、アクティブリスニング行動、連続的な顔の動きを単一の統合システムとして処理する初のリアルタイムモデルとなった。10種類以上の感情状態(幸福、悲しみ、怒り、驚き、嫌悪、恐怖、興奮、好奇心、満足など)をシームレスに遷移させることが可能だ。
また、フルデュプレックスモデルとして設計されており、聞きながら同時に応答することができる。頭部と肩から個々の瞬きまで、すべてのピクセルを生成し、LLMやプロンプトを通じて感情表現を明示的に制御できる。
Phoenixシリーズの進化を振り返ると、Phoenix-2で3Dガウシアンスプラッティングに移行しリアルタイムの壁を突破、Phoenix-3で口と唇だけでなく顔全体の生成を実現、そしてPhoenix-4で視覚的リアリズムだけでなく「行動的リアリズム」を新たな標準として確立した。
レイテンシは600ミリ秒未満に抑えられており、ビデオ通話への統合がシームレスに行える点も特筆すべきである。