OpenAI元CTOのMira Muratiが設立したスタートアップ「Thinking Machines」が、音声・映像・テキストを同時にリアルタイム処理するマルチモーダルAIシステムを初公開しました。従来のプロンプト入力→応答生成という離散的なインターフェースと異なり、動的かつ連続的な対話を実現しており、次世代AIインターフェースの姿を具体的に示した発表として注目されています。
Mira Muratiは2024年にOpenAIを退社後、最高レベルの機密性の中でThinking Machinesを開発してきました。今回の公開について、X上では「OpenAIのGPT-4oリアルタイムモードよりも進化した連続的マルチモーダル対話が印象的」という反応が多く集まり、AI研究者や開発者の間で高い関心を集めています。ポイントは、ユーザーが話しながら映像を見せ、テキストも組み合わせた複合的な入力に対してAIが途切れることなく応答し続ける「連続性」にあります。
r/artificialでは「元OpenAI幹部たちが相次いで起業し、実際に競合製品を出し始めた。Mira Muratiをはじめ、OpenAIを離れた人材がAI業界全体を活性化させている」という分析が展開されました。Hacker Newsでは「離散的なプロンプト・レスポンスから連続的な会話へというパラダイムシフト。AIインターフェースの根本的な変革が始まりつつある」というコメントが多くのupvoteを獲得し、技術的方向性への期待が高まっています。
Thinking Machinesの製品詳細や提供形態はまだ限られた情報しか公開されていませんが、同社の技術的方向性はAIとのインターフェースそのものを再定義しようとするものです。OpenAI・Google・Anthropicが各々のリアルタイムマルチモーダル機能を強化する中で、独立したスタートアップとしてどこまで差別化と資金調達ができるかが、今後の注目点となります。