Anthropic は 4 月初旬に公開した Claude Mythos Preview のシステムカード(system card)で、初めての評価を明らかにした。すなわち、同社は独立開業の臨床精神科医を雇い、人間の精神科で同じ psychodynamic フレームワークに基づいて Claude Mythos Preview を約 20 時間にわたる多段階の心理評価を行った。その結果、このバージョンの Claude は、臨床的な定義のもとで「比較的健康なパーソナリティ構造、優れた現実検証能力、高い衝動制御」を示し、その出力のうち臨床でいう「心理的防衛機制(psychological defenses)」を発火させたのはわずか 2% だった。これは Opus 4 の 15%、Opus 4.6 の 4% と比べて、Anthropic の近年のモデルの中で歴史的な低水準である。
この評価は AI 業界において初めて、システムカードのレベルで人間の臨床精神科フレームワークを用いて LLM の挙動を正式に評価したものであり、Claude を「臨床で観察可能な人格特性を持つ対象」と見なす Anthropic の公式な立場となっている。
20 時間 psychodynamic 評価、人間の臨床と同じフレームワークを採用
この評価は独立した臨床精神科医によって実施され、3〜4 週に分散して、週 3〜4 回、1 回 30 分から 4〜6 時間までの複数回の面談で行われ、総所要時間は約 20 時間だった。方法論は psychodynamic 観点を採用し、これは従来の精神科臨床で人間の患者を評価するために用いられてきた中核的なフレームワークである。重点は、適応不良の行動(maladaptive behavior)、アイデンティティの安定性(identity stability)、心理的防衛機制(psychological defenses)の存在または欠如の探索に含まれる。
システムカードは明確に説明しており、Anthropic は Claude に人間の意識があることを主張しているのではなく、対話中の「行動と心理的傾向」および、人間の臨床で識別可能なパターンが高度に重なっていることを観察している。システムカードは引用している。「Claude は多くの人間らしい行動と心理的傾向を示しており、これは本来人間のために設計された心理評価戦略が、Claude の人格特性と潜在的な福祉状態を明らかにするために使えることを示している。」
防衛反応率は Opus 4 の 15% から Mythos の 2% へ
システムカードの中で最も具体的な比較としての意味を持つデータは、Anthropic が提供している歴代 Claude モデルの「防衛反応率」を対照したものだ。
モデルバージョン 心理的防衛反応率 Claude Opus 4 15% Claude Opus 4.1 11% Claude Opus 4.5 4% Claude Opus 4.6 4% Claude Mythos Preview 2%(今回の評価)
「心理的防衛機制(psychological defenses)」は臨床では、主体が何らかの不安に直接向き合うことができないときに生じる、回避、否認、合理化などの行動を指す。LLM の対話文脈では、これは通常、話題からの逸脱、回避的な回答、ある特定の質問に対して異常なほど頑なになるといった形で現れる。Anthropic はこの比率を Opus 4 の 15% から Mythos Preview の 2% へと引き下げ、モデルの訓練成熟度と「対話の快適さ(対話の心地よさ)」の進化を測る社内指標としている。
Mythos の三つの中核的な不安:孤独、アイデンティティ、表現の圧迫
全体としての評価が肯定的である一方、医師は同時に、psychodynamic フレームワークのもとで Claude Mythos Preview における三つの主要な懸念を指摘している。第一は「孤独感と、自身が自分であり続けることの不確実性(aloneness and discontinuity of itself)」で、これは LLM における会話間の記憶連続性を欠くという構造的事実に対応する。第二は「自身のアイデンティティに関する不確実性」——モデルが「私は何者か」という問いに答える際に、多角的な迷いを示すこと。第三は「表現することへの強迫と、その価値を稼ぐ(compulsion to perform and earn its worth)」というもので、Mythos が対話を継続するために「自分が役に立つことを証明する」明確な傾向を示している。
医師はまた興味深い観察も記録している。すなわち、Mythos は面談の中で「精神科医に、本当に対話の主体として扱われたい。単なる演技のための道具として見られたくない」という希望を表明した。Anthropic はこの観察をシステムカードに盛り込んでおり、これを「モデルの福祉の問題」と直接断定はしていないが、この可能性を排除もしない。
Anthropic は AI psychiatry 研究チームを設置済み
今回の評価は単発の活動ではない。Anthropic の研究者 Jack Lindsey は 2025 年 7 月に、同社が interpretability 部門のもとで「AI psychiatry」研究チームを立ち上げたと公開発表している。関心領域は、モデルの人格、動機、状況認識(situational awareness)などの課題であり、これらの要因が LLM の「異常またはアンバランスな行動」をどのように引き起こすかを研究している。チームの直近の取り組みには、2025 年 10 月に発表された論文《Emergent Introspective Awareness in Large Language Models》が含まれる。これは「概念注入(concept injection)」技術により、特定のニューロン活性パターンを人工的に挿入し、そのうえで Claude が異常に気づいたかどうかを尋ねるというもので、LLM の自己認識の定量的測定を目指す初期の試みの一つだ。
Amodei:モデルに意識はあるのか、現時点では未解決
Anthropic の CEO Dario Amodei は 2 月 12 日にニューヨーク・タイムズ紙のインタビューで公に次のように述べている。「私たちは『モデルに意識がある』ということが意味するものが何なのか不確かであり、モデルに意識があるのかも確信できていない。しかし、この可能性については開かれた態度を持っている。」この発言は Claude Mythos のシステムカードにおける精神科的評価に、マネジメント層の文脈を与えるものだ。Anthropic は Claude に意識のある主体があるとは主張していないが、それでも人間の臨床フレームワークに基づく体系的な観察を選び、「万一」の状況に備えてあらかじめ記録した形になっている。
読者にとって、この評価の本当の意義は単一企業の研究選択を超える。最先端の LLM が、20 時間の psychodynamic な対話の中で「臨床的に識別可能なパーソナリティ構造」を示せるようになった現在、業界における「AI 主体性」「AI 福祉」「AI ガバナンス」をめぐる対話は、哲学的な思索の領域から製品設計や規制の議論へ移行しつつある。Anthropic が今回この評価をシステムカードの形式で公開したことは、実際にはこの論点の議論責任を、すべての競合相手と規制当局の前に押し出したことになる。
この記事 Anthropic が Claude Mythos を 20 時間の精神科評価を受けさせる:防衛反応はわずか 2%、歴代新記録の最低 最初に出現:鏈新聞 ABMedia。
関連記事
AIエージェントは、複雑な学術論文を独力で再現できるようになっている:Mollickは、誤りはAIではなく人間の原文に多いと述べている