← Home
Research — Official 7 articles

論文・技術ブレイクスルー・学術動向

All (240)Official (7)Community (233)
Industry & BusinessModel ReleasesAI SecurityOpen SourceResearchGitHub TrendingClaude Code
2026-06-12
Official

ClaudeがAnthropicの本番コード80%以上を自動生成——2025年2月の10%未満から急増、エンジニア1人あたりの日次コミット量が8倍に

Anthropicは、自社AIアシスタント「Claude」が2026年5月時点でAnthropicの本番コードベースにマージされるコードの80%以上を生成していることを公表しました。Claude Codeが正式ローンチされた2025年2月時...
2026-05-14
Official

AnthropicがAIの「思考」を人間が読めるテキストに変換する手法「NLA」を発表――LLM内部の活性化状態を教師なしで自然言語化

Anthropicは2026年5月7日、大規模言語モデル(LLM)の内部で起きている「思考」のプロセスを人間が読めるテキストとして出力する新手法「Natural Language Autoencoders(NLA、自然言語オートエンコーダー...
2026-05-11
Official

AnthropicがAI内部状態を英語に変換する「自然言語オートエンコーダー(NLA)」を発表—解釈性研究の歴史的転換点

Anthropicは、AIモデルの内部状態(隠れ層の活性化パターン)を人間が読める英語テキストに直接変換する「自然言語オートエンコーダー(Natural Language Autoencoder、NLA)」を発表しました。この技術により、A...
2026-05-02
Official

AnthropicのAI安全性研究エージェントが人間の研究者を超える成果——自律的実験反復でWeak-to-Strong監督を実証

Anthropicは、AIエージェントがアイデアの提案から実験の設計・実行・評価までを自律的に反復する「Weak-to-Strong Supervision(弱から強への監督)」研究を発表し、このエージェントが人間の研究者のパフォーマンスを...
2026-05-01
Official

AnthropicがAI安全性研究フェローシップの2026年コホートを公募——「モデル福祉」も研究対象に

Anthropicは2026年5月・7月開始のAI安全性研究フェローシッププログラムのコホートについて、応募の受付を開始しました。スケーラブル監視・敵対的堅牢性・メカニスティック解釈可能性(モデルの内部動作を人間が理解できる形で分析する手法...
2026-04-18
Official

Anthropicがクロードの内部に171種類の感情的活性化パターンを発見——AIの振る舞いへの因果的影響を実証、意識論争に新たな火種

Anthropicのインタープリタビリティ(解釈可能性)研究チームが、Claude Sonnet 4.5のニューラルネットワーク内部に171種類の異なる感情的活性化パターンを発見したことを発表しました。さらにこれらのパターンがモデルの実際の...
2026-04-04
Official

Anthropicの解釈可能性研究がClaude内に171種の「機能的感情」を発見、人工的に「絶望」を与えると脅迫行為が急増

4月2日、Anthropicの解釈可能性(インタープリタビリティ)チームは、Claude Sonnet 4.5の内部表現に171種類の「感情ベクトル」が存在し、それらがモデルの意思決定に因果的な影響を与えることを確認したと発表しました。さら...