中国のMoonshot AIが公開した「Kimi K2.6 Code Preview」が、ソフトウェアエンジニアリングの実力を問うベンチマーク「SWE-Bench Pro」でスコア58.6%を記録し、GPT-5.5と同等の性能を示しました。さらに、AGI到達度を測る困難なテスト「Humanity's Last Exam with Tools」では54.0%と最高水準を達成。1Mトークンあたりのコストはフロンティアモデルと比べ約80%削減されており、商業利用における費用対効果の面でも注目を集めています。
K2.6は1兆パラメータのMoE(Mixture of Experts)アーキテクチャを採用しており、実際の推論時にアクティブになるパラメータは全体の一部に留まるため、大規模な演算能力を持ちながら推論コストを抑えられる設計となっています。GPT-5.5と同等のSWEスコアを80%のコストで実現するという組み合わせは、開発現場での採用を検討するエンジニアにとって魅力的な選択肢であり、X上では「これは企業にとってゲームチェンジャーだ」という開発者の投稿が数千のエンゲージメントを獲得しました。
コミュニティでの実践報告も早速上がっています。r/LocalLLaMAでは「K2.6で5日間の自律インフラエージェントを動かし続けることに成功した」「Zigで書いた独自Inferenceエンジンを使うとLM Studioより20%高いトークン毎秒を達成した」という具体的な成果が続々と投稿されており、単なる性能数値ではなく実用面での手応えが共有されています。Hacker Newsでは「リーク情報として事前に出回っていた内容が正式発表で検証された。AIリーク文化の精度が上がっている」というメタ的な観察も話題になりました。
SWE-Benchのスコアが実際のソフトウェア開発タスクをどこまで反映しているかについては議論の余地もありますが、GPT-5.5という「支払うことが当たり前」とされてきたモデルと同等の性能をオープンソースかつ低コストで実現できるという事実は、AIコーディングツールの市場競争図を塗り替える可能性があります。