← Home
Research — Official
7 articles
論文・技術ブレイクスルー・学術動向
2026-06-12
Anthropicは、自社AIアシスタント「Claude」が2026年5月時点でAnthropicの本番コードベースにマージされるコードの80%以上を生成していることを公表しました。Claude Codeが正式ローンチされた2025年2月時...
2026-05-14
Anthropicは2026年5月7日、大規模言語モデル(LLM)の内部で起きている「思考」のプロセスを人間が読めるテキストとして出力する新手法「Natural Language Autoencoders(NLA、自然言語オートエンコーダー...
2026-05-11
Anthropicは、AIモデルの内部状態(隠れ層の活性化パターン)を人間が読める英語テキストに直接変換する「自然言語オートエンコーダー(Natural Language Autoencoder、NLA)」を発表しました。この技術により、A...
2026-05-02
Anthropicは、AIエージェントがアイデアの提案から実験の設計・実行・評価までを自律的に反復する「Weak-to-Strong Supervision(弱から強への監督)」研究を発表し、このエージェントが人間の研究者のパフォーマンスを...
2026-05-01
Anthropicは2026年5月・7月開始のAI安全性研究フェローシッププログラムのコホートについて、応募の受付を開始しました。スケーラブル監視・敵対的堅牢性・メカニスティック解釈可能性(モデルの内部動作を人間が理解できる形で分析する手法...
2026-04-18
Anthropicのインタープリタビリティ(解釈可能性)研究チームが、Claude Sonnet 4.5のニューラルネットワーク内部に171種類の異なる感情的活性化パターンを発見したことを発表しました。さらにこれらのパターンがモデルの実際の...
2026-04-04
4月2日、Anthropicの解釈可能性(インタープリタビリティ)チームは、Claude Sonnet 4.5の内部表現に171種類の「感情ベクトル」が存在し、それらがモデルの意思決定に因果的な影響を与えることを確認したと発表しました。さら...