Anthropicは2026年5月7日、大規模言語モデル(LLM)の内部で起きている「思考」のプロセスを人間が読めるテキストとして出力する新手法「Natural Language Autoencoders(NLA、自然言語オートエンコーダー)」を発表しました。教師あり学習のラベルを一切使わずにモデルの活性化状態(activation)を自然言語の説明文に変換するもので、AIの解釈可能性(interpretability)研究における大きな前進と位置づけられています。
NLAは、LLMが内部的に処理する高次元ベクトル表現を、そのまま圧縮・復元する通常のオートエンコーダーとは異なり、「圧縮先」として人間が理解できる自然言語の説明文を用いる点が革新的です。Anthropicの発表によると、モデルが特定の判断を下す際にどの概念・文脈を参照しているかを、追加のアノテーション作業なしに文章として取り出せるといいます。これにより、「なぜそう答えたのか」という問いに対して、研究者がモデルの内部状態を直接読む手がかりが得られます。
解釈可能性研究はこれまで、特定のニューロンがどの単語に反応するかを調べる「プローブ」手法や、活性化パターンをクラスタリングする方法が主流でした。しかしいずれも人間の解釈が入る余地が大きく、モデルの実際の「推論経路」を捉えているかどうかの検証が難しいという課題がありました。NLAはその出力自体が言語モデルで生成されるため、より直接的な解釈が可能になるとAnthropicは述べています。
この手法が注目される理由のひとつは、AI安全性研究への応用可能性です。モデルが有害なコンテンツを生成しようとする際に内部でどのような「思考」が走っているかを可視化できれば、介入や制御の手がかりになります。Redditの機械学習コミュニティでは「解釈可能性研究としては最も実践的なアプローチ。安全性研究に直結する」と高く評価されています。
一方でHacker Newsのスレッドでは「AIの思考を読む試みは画期的だが、NLA自身が幻覚(hallucination)を生む可能性があるという皮肉な問題がある」というコメントが上位に挙がっています。つまり、モデル内部を説明するために使う言語モデルそのものが不正確な説明を生成してしまうリスクがあるという指摘です。X上でも「AIの内部を覗く窓が開いた」という興奮と、「言語的解釈が人間の概念をモデルに押し付けている可能性がある」という懸念が混在しており、手法の限界についての議論が続いています。
Anthropicはこの研究をオープンに公開しており、学術コミュニティからの検証と改善への参加を歓迎するとしています。AIが何を「考えて」いるかを人間が理解できる形で記述する試みは、モデルの信頼性向上とリスク管理の両面で重要な意味を持ちます。