Research Community 2026-05-05 Source →

ハーバード大学研究でAI（o1）が救急室医師2名より診断精度67%と判明——査読誌Scienceに掲載

ハーバード大学の研究チームが、OpenAIの推論モデルo1を実際の救急室（ER）症例に適用した比較試験を実施し、その結果を権威ある科学誌Scienceに発表しました。o1の正診率は67%で、比較対象となった指導医2名の50〜55%を上回りました。研究は二重盲検設計で行われ、評価を担当した2名の出席医師はどの診断がAI由来かを知らされていない厳密な条件下で実施されています。

o1が特に優位性を発揮したのは初期トリアージの段階です。ERでは情報が最も少なく、時間的プレッシャーが最も高い最初の判断が治療の方向性を決定します。この「情報不足×高速判断」という状況でAIが人間の医師を上回ったことは、医療AIの実用化議論に大きな一石を投じるものです。ただし、研究チーム自身は「実際の臨床での意思決定に導入する前に、前向き試験（プロスペクティブ・トライアル）が必要」と明言しており、直ちに現場への採用を推奨しているわけではありません。

反応は様々です。Xでは「医師の代替ではなく補助ツールとして使うべき。しかしこの結果は無視できない」という慎重な見方が支持を集めました。Redditでは「実際の救急事例で検証したのが重要。ベンチマーク偏重の研究とは重みが違う」という評価が多く、Hacker Newsでは「技術的可能性より、医療現場への実装における責任の所在と規制整備が急務。制度設計が追いついていない」という本質的な問いも投げかけられています。

診断精度でAIが医師と同等か上回る領域は放射線画像の読影など複数すでに報告されていますが、今回のように外来トリアージという実務の核心部分での検証は珍しいケースです。AIが医療の入口をどう変えるのか、規制当局と医療機関の動向が今後の焦点になります。

ハーバード大学研究でAI（o1）が救急室医師2名より診断精度67%と判明——査読誌Scienceに掲載

関連リンク