研究者が心理学の古典的な注意力テストをトップAIモデルに適用したところ、短いタスクでは高い精度を保つものの、タスクが長く複雑になるにつれて性能が急激に低下することが判明しました。「100万トークンコンテキスト対応」を謳うモデルであっても、実用的な長文処理では信頼性が大きく損なわれる可能性があることが改めて示された形です。
この研究は、心理学で人間の持続的注意力を測定するために使われてきたテスト手法をAIに転用したものです。単純な識別タスク(短いリストの中から特定の色を見つけるなど)では高い正確性を示すAIモデルが、同じタスクをリストが長くなる・ステップが増えるなど複雑な形式に変えると急に誤りを犯すようになることが確認されました。これは「Lost in the Middle」問題——コンテキストの中間部分にある情報が抜け落ちやすいという既知の課題——と関連するものとして、r/MachineLearningでも論文と合わせて引用されています。
X(旧Twitter)では「100万トークンコンテキストと謳いながら実際は途中で壊れる」という皮肉な反応が多数見られ、マーケティングと実性能の乖離への不満が表れています。Hacker Newsでは「エンタープライズで本当に信頼できるのか」という実務的な懸念が上位を占め、AIを業務フローに組み込む企業にとってこの問題が看過できないことを示しています。
長いコンテキストを前提とした業務設計——法律文書の通覧・コードベース全体の分析・長大なレポートの要約など——は今後も増えていく一方です。AIベンダーが示すベンチマーク数値と実運用での性能の差を埋めるためには、タスクを適切な長さに分割する「チャンキング」設計や、重要情報をコンテキストの先頭・末尾に配置するプロンプト設計の工夫が引き続き必要です。