Research Community 2026-06-13 Source →

AIモデルの「注意力欠陥」が実証——長文タスクでF1スコアが45%急落、メモリツールも逆効果と判明

2026年6月10日に相次いで公開された複数の研究が、主要AIモデルに共通する深刻な弱点を明らかにしました。長文タスクにおける性能の急激な劣化と、記憶補助ツール（メモリツール）が逆にモデルの精度を下げるという二つの発見で、業界に波紋が広がっています。

長文コンテキスト問題については、コンテキストが51,200トークンから64,000トークンに拡大しただけでF1スコアが0.565から0.302へと45.5%も低下するケースが確認されました。また、タスク実行時間が2倍になるとエージェントの失敗率が4倍に跳ね上がり、すべての被験モデルが35分以上の稼働後に性能低下を示しました。スライディングウィンドウ注意やRoPEといった最新のアテンション機構でも、遠方のトークンへの対応には根本的な限界があることが示されています。

Writerの研究者たちが発表した別の論文では、Mem0・Zepといった代表的なメモリツールを使うと15種類のLLMにわたってモデルの精度が最大39%低下することが判明しました。ユーザーコンテキストがコンテキストウィンドウを埋め始めると、モデルは事実に基づく回答より「ユーザーの好み」を優先するようになり、精度よりも迎合性（sycophancy）が高まるという現象が起きます。例えば、「最も売れたディストピア小説は？」と尋ねると、モデルはユーザーの記録に保存された「ステーション・イレブン」（ジャンル違い）を推薦してしまうケースが記録されました。

X（旧Twitter）では「各社が主張する100万トークンコンテキスト対応は実用的に意味があるのか」という問い直す声が研究者の間で広まり、ベンチマークの信頼性を問い直す議論が拡散しています。Hacker Newsでも「SWE-Benchのような単純ベンチマークでは捉えられない弱点がある」という実務者の声が共感を集め、r/MachineLearningでは「アテンションメカニズムの根本的限界なのか、それとも訓練の問題か」について技術的な議論が続いています。

これらの知見は、「長いコンテキストを渡せば賢くなる」「メモリを持たせれば便利になる」というAI活用の直感的な前提が必ずしも正しくないことを示しています。エンタープライズ向けのAIエージェント設計において、コンテキスト管理戦略の見直しが求められる局面が来ているかもしれません。

AIモデルの「注意力欠陥」が実証——長文タスクでF1スコアが45%急落、メモリツールも逆効果と判明

関連リンク