1M AI News のモニタリングによると、4月2日にAnthropicが新しい論文を発表し、Claude内部の「感情メカニズム」を研究した。その結果、Sonnet 4.5において171種類の「感情ベクトル」を見出した。これらの感情は、それに関連する状況において活性化され、人間の心理構造や感情空間と類似している。
MBZUAIの修士学生であるChenxi Wangは、同チームが2025年10月に発表した論文(《LLMsは「感じる」のか?感情回路の発見と制御》)こそが、大規模言語モデルが感情を生み出す内部メカニズムを体系的に研究した最初の仕事だと明らかにした。彼女がAnthropicの論文を読んだときの最初の反応は「これは、私たちが去年やったことじゃないの?」だった。両者の核心的な違いは、これまでの多くの研究がモデルがテキスト内の感情を識別すること(つまり感情認知)に注目してきたのに対し、両者が行っているのはいずれも、モデル自身が感情を生成すること(つまり感情生成/内部メカニズム)を研究している点にある。Anthropicの通信著者であるJack Lindseyは当初、両者の仕事は既存研究と重複していると考えていたが、Chenxi Wangが一つずつ読み進めて違いを指摘したことで、この区別を認めた。現在、Anthropicはその論文ブログを更新し、「関連研究」のセクションでこの仕事への引用を明確に追加しており、出来事は比較的友好的な形で解決された。
中国系チームの論文では、3つの核心的な発見が言及されていた:
第一に、大規模言語モデルの内部には、具体的な意味とは無関係で、安定した感情表現が実際に存在する。異なる感情はニューラルネットワークの浅い層ですでに明確なグループを形成し、例えば怒りと嫌悪が近く、悲しみと恐れが近いなど、人間の直感と一致している。
第二に、これらの感情メカニズムは少数のコアニューロンとアテンションヘッドによって主導される。アブレーション実験によって、2-4個のニューロンまたは1-2個のアテンションヘッドをオフにするだけで、モデルの感情表現能力が大幅に低下することが判明した。
第三に、チームはこれらのコア構成要素を層をまたぐ「感情回路」に統合した。この回路を直接調整することで、モデルが指定した感情を生成する正確率は99.65%に達し、従来のプロンプトによる誘導やベクトル操作の方法を大きく上回る。さらに、以前最も制御が難しかった「驚き」の感情でさえ、100%の正確な表現が実現できた。
このメカニズムはLLaMAやQwenなど複数のモデルで検証されており、大規模言語モデルに共通する法則であることが証明された。