Tavusが2026年2月19日に「Phoenix-4」をリリースしました。ガウシアン拡散ベースのモデルで、1080p・40fpsのリアルタイムアバター生成が可能です。感情制御や能動的傾聴行動に対応し、AIビデオ通話の新時代を切り開きます。
Phoenix-4は、リアルタイムで感情に反応し、コンテキストを認識する人間のプレゼンスをライブ会話で生成する「行動生成エンジン」です。感情状態の生成と制御、能動的傾聴行動、連続的な顔の動きを単一の統合システムとして生成できる、史上初のリアルタイムモデルです。
技術的には、1080pの解像度で40fps、エンドツーエンドの会話レイテンシが600ミリ秒未満という高性能を実現しています。フルデュプレックス(全二重)モデルとして、同時に聴きながら応答することができます。頭部と肩から個々の瞬きまで、すべてのピクセルを生成します。
アーキテクチャは独自のガウシアン拡散レンダリングモデルを採用しており、皮膚の伸びが光に与える影響や、目の周りのマイクロ表現の出現方法など、複雑な顔の動きをAIが計算できます。
システムは3つの異なるモデルで構成されています:感情認識のためのRaven-1、会話タイミング/ターンテイキングのためのSparrow-1、そして最終的なビデオ合成のためのPhoenix-4です。
カスタム「レプリカ」(デジタルツイン)の作成には、わずか2分間のビデオ映像のみが必要です。Tavusプラットフォーム、API、PALs、および40以上の新しいレプリカを含む更新されたStock Replicaライブラリを通じて利用可能です。