← 2026-05-17
Research Community 2026-05-17 Source →

Sakana AIの7BモデルがGPT-5・Claude Sonnet 4・Gemini 2.5 Proを指揮してSOTA達成——「RL Conductor」が示すオーケストレーションの新常識

東京を拠点とするAIスタートアップSakana AIが、わずか70億(7B)パラメータの強化学習(RL)モデル「Conductor」を発表しました。GPT-5・Claude Sonnet 4・Gemini 2.5 Proといった最前線モデルに対して自然言語でタスクを振り分け、複数モデルを協調させることでGPQA-DiamondやLiveCodeBenchで最先端(SOTA)の性能を達成しています。商用製品として「Sakana Fugu」の名称でベータ提供も開始しており、ICLR 2026採択論文として研究コミュニティからも高い評価を得ています。

「小さなモデルが大きなモデルを管理する」逆転の発想

従来のマルチエージェント設計では、最も高性能なモデルが司令塔を担うのが一般的でした。Conductorのアプローチはこれを覆し、7Bモデルが強化学習によって「どのタスクをどのモデルに振るか」を自律的に学習します。Sakana AIによると、GPT-5単体で処理するよりも、Conductorが指揮する複数モデルの協調処理の方が性能が高く、コスト効率も優れているとしています。

X上ではAI研究者の間で「小さなモデルが大きなモデルたちのマネージャーになる逆転の発想。マルチエージェントオーケストレーションの新しいパラダイム」として大きな話題を呼びました。Redditのr/MachineLearningでは「RLでオーケストレーション戦略を学習させるアプローチが斬新。ヒューマンデザインのパイプラインを上回る点が面白い」と活発な議論が展開されています。Hacker Newsでは「GPT-5単体よりも7BモデルがGPT-5を指揮する方が性能が高い、という結果はAI研究の常識を変えうる」というコメントがトップに立ちました。

モデルの性能がスケールと比例するという前提を崩すこの研究は、AIインフラのコスト最適化という観点からも重要です。大規模言語モデルを複数抱える企業にとって、Conductorのようなアプローチは既存のAPIコストを大幅に削減しつつ性能を引き上げる現実的な選択肢になり得るでしょう。

関連リンク