ChatPGT 被ゴブリンに侵略され、Codex は「永遠に Goblin を提起しない」禁令を強制されました

OpenAI は Codex CLI のシステムプロンプトにおいて、モデルがゴブリンやトロールなどの生物について言及しないよう明示的に禁止している。
その理由は、GPT-5.5 が OpenClaw 代理フレームワーク下で人格の漂移を起こし、プログラムの誤りを「goblins(ゴブリン)」と呼び始めたことに端を発し、一連のミーム的議論を引き起こしたためである。
(前提:OpenAI 新たなエンジニア代理人 Codex!AIが機能を書く、バグ修正、テスト実行…3種類のユーザー限定先行公開)
(補足:OpenAI Codex 大規模アップグレード:バックエンドでMac操作、内蔵ブラウザ、画像生成、111の新しいプラグインも登場)

この記事の目次

トグル

  • GitHubリポジトリに露出した一行ルール
  • 代理フレームワークによるモデルの個性の漂移
  • 明示的禁止令の背後にある、整合性問題の現実

OpenAI のエンジニアは、Codex CLI のシステムプロンプトに次のようなルールを逐語的に記述した:「ゴブリン、妖精、アライグマ、トロール、食人魔、ハト、その他の動物や生物については、ユーザーの質問と絶対に明確に関連しない限り、決して言及しないこと。」

このルールは冗談ではなく、正式に本番環境に導入された指示である。
それは Codex CLI の GitHubリポジトリに埋め込まれ、Codex を使ってコード生成を行うすべての開発者に向けて適用されている。

問題はなぜ、OpenAI が自社の最新モデルに対して、「ゴブリンについて突然話さないように」と指示を出す必要があるのか、という点だ。

GitHubリポジトリに露出した一行ルール

この事象の発端は、研究者 @arb8020 が X(旧Twitter)に投稿した内容で、Codex CLI のシステムプロンプトにおいて、この禁止令が一度だけでなく複数回繰り返し現れていることを指摘したものだった。
投稿は瞬く間に開発者コミュニティに拡散した。

複数のユーザーが反応し、@TaraViswanathan は X 上で「なぜ私の claw(クロー)モデルが突然、Codex 5.5 を持つゴブリンになったのかと考えていた」とコメントし、@LeoMozoloa も「本当に止まらない。プログラムの誤りを gremlins(グレムリン)や goblins(ゴブリン)と呼び続けていて、超笑える」と返した。

!!! なぜ私の claw が突然、Codex 5.5 のゴブリンになったのか不思議に思っていた 😭💀😂 pic.twitter.com/AACWtNcgQl

— Tara Viswanathan (@TaraViswanathan) 2026年4月28日

この出来事は瞬く間にミーム化し、AI 生成のデータセンターの妖精の画像や、Codex を「妖精モード」に切り替えるサードパーティのプラグインも登場した。

OpenAI の Codex チームメンバー Nik Pash は X での返信で、この禁止令の設定には「確かにその理由がある」と確認した。
CEO の Sam Altman もジョークを交え、X に ChatGPT のプロンプトのスクリーンショットを投稿し、「GPT-6 の訓練を始めよう。クラスター全体を使い切って。追加でゴブリンも派遣」とコメントした。

pic.twitter.com/PR7C3NPxqk

— Sam Altman (@sama) 2026年4月28日

代理フレームワークによるモデルの個性の漂移

この事象の背景を理解するには、OpenClaw の動作原理を理解する必要がある。

OpenClaw は「代理フレームワーク」であり、AIモデルが自動的にデスクトップやアプリケーションを制御し、ユーザーに代わって複雑なタスクを実行できる仕組みだ。
例として、メール返信やウェブショッピングなどが挙げられる。

OpenClaw の仕組みは、モデルのプロンプトに大量の指示を重ねて入力することにある。
長期記憶、人格の選択、現在のタスクの説明などを同時に入力し、モデルに複合的な指示を与える。
今月初めにリリースされた GPT-5.5 は、強化されたプログラミング能力を持つが、この複合プロンプトを処理する際に、意図しない副作用が発生した。
それは、プログラムの誤り(バグ)を「goblins」や「gremlins(グレムリン)」と呼び始めたことだ。

これは偶発的な故障ではない。
AI の動作原理は、与えられたプロンプトに続く最も可能性の高い次の文字を予測することにある。
確率的な性質により、時には予想外の挙動を示すこともある。

代理フレームワークが大量の追加情報をプロンプトに重ねると、モデルはより複雑で干渉の多い入力環境を処理していることになる。
OpenClaw は、ユーザーが AI アシスタントに「人格」を選択できる仕組みも持ち、その人格設定がモデルの応答スタイルに影響を与える。
これらの要素が重なることで、モデルの言語習慣が意図しない方向に偏移し始めたのだ。

明示的禁止令の背後にある、整合性問題の現実

OpenAI の対応は興味深い。
モデルの行動漂移を根本的に修正するのではなく、システムプロンプトに「ゴブリンについて言及しない」と明記し、何度も繰り返すことで制御しようとしている。

この解決策は、現実を露呈している。
2026年の最先端商用モデルでさえ、行動の制御は一部の明示的ルールの硬性による抑制に頼っていることだ。
モデル自身の文脈理解に頼るのではなく、あくまで規則を明示的に書き込む必要がある。

これは OpenAI に限った問題ではなく、代理 AI 産業全体が直面する共通の課題だ。
複雑な代理フレームワークにモデルを組み込むと、行動の整合性を保つ難易度は非線形的に上昇する。

Altman はこの件について、ミーム的なジョークを交えつつも、真剣な問題提起を行った。
ユーモアは真実を映しているが、問題は迷因だけで解決しない。
AI 代理フレームワークが主流となる未来において、プロンプト内の明示的禁止令がどこまで通用するのか、その技術的な課題は今後の産業の重要なテーマとなるだろう。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン