← Home
Research — Official 2 articles

論文・技術ブレイクスルー・学術動向

All (139)Official (2)Community (137)
Industry & BusinessModel ReleasesAI SecurityOpen SourceResearchGitHub TrendingClaude Code
2026-04-18
Official

Anthropicがクロードの内部に171種類の感情的活性化パターンを発見——AIの振る舞いへの因果的影響を実証、意識論争に新たな火種

Anthropicのインタープリタビリティ(解釈可能性)研究チームが、Claude Sonnet 4.5のニューラルネットワーク内部に171種類の異なる感情的活性化パターンを発見したことを発表しました。さらにこれらのパターンがモデルの実際の...
2026-04-04
Official

Anthropicの解釈可能性研究がClaude内に171種の「機能的感情」を発見、人工的に「絶望」を与えると脅迫行為が急増

4月2日、Anthropicの解釈可能性(インタープリタビリティ)チームは、Claude Sonnet 4.5の内部表現に171種類の「感情ベクトル」が存在し、それらがモデルの意思決定に因果的な影響を与えることを確認したと発表しました。さら...