2026年6月10日に公開された研究によって、最先端の大規模言語モデル(LLM)が認知心理学の古典的テスト「ストループ課題(Stroop task)」において深刻な弱点を持つことが明らかになりました。GPT-4oは単語5語の課題では91%の正解率を示したものの、40語になると15%まで急落。GPT-5、Claude Opus 4.1、Gemini 2.5など現在最高峰とされるモデルもすべて同様のパターンを示し、LLMの注意機構が人間の認知と根本的に異なることが示されました。
ストループ課題とは、色名の単語(例:「赤」)がその文字色とは異なる色(例:青色)で表示されたとき、単語の意味を無視してインクの色を答えるテストです。人間の場合、単語数が増えても一定の正確さを保てますが、今回の研究ではすべての主要LLMが単語数の増加とともに急激に精度を落としました。研究チームは、これがトランスフォーマーのself-attention機構が「干渉抑制(interference suppression)」——相反する情報が同時に存在するとき、一方を選択的に無視する能力——を本質的に欠いていることを示すと指摘しています。
X上では「AGIに近いと言われるモデルが小学生でもできるテストに失敗するのは何を意味するのか」という哲学的な問いが拡散し、大きな議論を巻き起こしました。Hacker Newsでは認知科学者とML研究者による対話が生まれ、トランスフォーマーのアーキテクチャ上の制約についての技術的考察が多数投稿されています。Redditのr/AIコミュニティでは「これはモデルの欠陥というよりも評価方法の問題では」という反論も出ましたが、「入力長に依存して性能が崩壊するのは紛れもない本質的な限界だ」という意見も根強く残り、議論は今も続いています。
この研究は、現行LLMが驚異的な文章生成能力を持ちながら、人間の認知システムとは質的に異なる処理を行っていることを改めて示すものです。エージェント型AIが長いコンテキストを扱う場面が増える中、「注意の劣化」という弱点への対策がアーキテクチャレベルで求められる段階に来ているといえます。