スタンフォード大学の研究チームが開発した3Dビジョン言語モデル(VLM)「Merlin」が、腹部CTスキャンの解析において従来モデルを大幅に上回る性能を実証し、Nature誌に掲載されました。訓練データとは異なる3つの病院でテストを行った結果、診断コードの予測精度81%以上、5年後の慢性疾患発症予測で75%の精度を達成しています。
Merlinは、15,331件のCTスキャンから得られた600万枚以上の画像、180万件以上の診断コード、600万トークンを超える放射線レポートを学習データとして構築されました。従来の2DベースのAIモデルと異なり、CTスキャンの3Dボクセルデータ全体を一度に処理できる点が大きな特徴です。これにより、腫瘍の立体的な広がりや臓器間の位置関係といった、2D画像では捉えきれない情報を活用できます。
内部テスト5,137件、外部テスト44,098件という大規模な検証において、Merlinは2D VLM、CTファウンデーションモデル、既存の放射線診断モデルのいずれをも上回る性能を示しました。特に注目すべきは、訓練に使用していない病院のデータでも高い汎化性能を発揮した点です。これは医療AIにおける最大の課題のひとつである「施設間の性能差」を克服できる可能性を示唆しています。
Merlinがサポートするタスクは多岐にわたります。6種類の慢性疾患の5年後発症予測、放射線レポートの自動生成、20の臓器のセグメンテーション(領域分割)といったモデル適応タスクに加え、30種類の所見のゼロショット分類や692の表現型分類といった追加学習なしのタスクにも対応しています。臨床現場での放射線科医の業務効率化に大きく貢献することが期待されています。