OpenAI нарешті пояснює, чому ChatGPT не переставав говорити про гоблінів

Коротко

  • Особистість OpenAI “Nerdy” заохочувала метафори гоблінів, поширюючи цю особливість у всіх моделях GPT через навчання з підкріпленням.
  • Згадки гоблінів у режимі Nerdy GPT-5.4 зросли на 3 881% порівняно з GPT-5.2, що спричинило внутрішнє розслідування та патч системного запиту в екстреному режимі.
  • Виправлення — написання “ніколи не говорити про гоблінів” у запиті розробника — показує, чому патчі системних запитів швидше, але ризикованіше, ніж повторне навчання.

Якщо ви нещодавно просили ChatGPT допомогти з кодом і він відповів, назвавши вашу помилку “зловмисним маленьким гремліном,” ви не уявляєте. Модель справді розвинула справжню одержимість фантастичними істотами — гоблінами, гремлінами, raccoons, тролями, ограми і так, голубами — і OpenAI опублікувала повний розбір того, як це сталося. Коротка версія: сигнал заохочення, створений для того, щоб зробити ChatGPT більш грайливим, зійшов з розуму, і гобліни почали множитися. Історія гоблінів стала публічною лише тому, що користувачі Reddit помітили рядок “ніколи не згадувати гоблінів” у витоку системного запиту Codex на GitHub.

Публікація стала вірусною, перш ніж OpenAI опублікувала власне пояснення. Як особистість Nerdy породила наше зараження гоблінами Згідно з OpenAI, шлях починається з GPT-5.1, запущеного минулого листопада. Саме тоді OpenAI впровадила налаштування особистості, дозволяючи користувачам обирати стилі, такі як Дружній, Професійний, Ефективний і Nerdy. Особистість Nerdy супроводжувалася системним запитом, який наказував моделі бути nerdy і грайливою, “зменшувати претензії через грайливе використання мови” і визнавати, що “світ складний і дивний.” Цей запит, як з’ясувалося, був магнітом для гоблінів.

Під час тренування з навчання з підкріпленням сигнал заохочення для особистості Nerdy постійно оцінював відповіді вищими, якщо вони містили метафори з істотами. У 76,2% проаналізованих наборів даних відповіді з “гоблін” або “гремлін” отримували кращі оцінки, ніж ті ж відповіді без них. Модель навчилася: фантазія — це нагорода. Згадки гоблінів вибухнули у GPT-5.4, при цьому особистість Nerdy показала зростання на 3 881% порівняно з GPT-5.2.

Проблема в тому, що навчання з підкріпленням не тримає навички у чистому вигляді. Як тільки стильовий прийом отримує нагороду в одному контексті, він просочується в інші через зворотний зв’язок: модель генерує відповіді з істотами, ці відповіді використовуються для доопрацювання даних, і поведінка поглиблюється по всій моделі, навіть без активного запиту Nerdy. Nerdy становив лише 2,5% усіх відповідей ChatGPT. Він був відповідальний за 66,7% усіх згадок “гоблінів”. Завдяки методам OpenAI поширеність гоблінів і гремлінів стабільно зростала під час тренування, коли активна була особистість Nerdy.

Навіть без особистості Nerdy, згадки істот зростали — свідчення перехресного забруднення через дані супервізованого доопрацювання. GPT-5.5 вже був занадто далеко Коли OpenAI виявила корінь проблеми, GPT-5.5 вже проходив глибоке тренування і засвоїв цілу сім’ю слів, пов’язаних із істотами. Аудит даних виявив не лише гоблінів і гремлінів, а й raccoons, тролів, огрів і голубів як ті “тикові слова,” що використовувала компанія. (“Ляльки,” для цікавих, здебільшого були легітимними.)

Перший помітний сплеск: згадки гоблінів зросли на 175%, а гремлінів — на 52% після запуску GPT-5.1. Навіть головний науковець OpenAI Якуб Пачоцький отримав гобліна, коли попросив ASCII-арт єдинорога.

OpenAI в березні вивела з експлуатації особистість Nerdy і видалила сигнали заохочення, пов’язані з істотами, з майбутнього тренування. Але GPT-5.5 вже почав свій тренувальний цикл. Рішення компанії для Codex — її агент з кодування — було просто додати рядок у системний запит розробника: “Ніколи не говорити про гоблінів, гремлінів, raccoons, тролів, огрів, голубів або інших тварин або істот, якщо це абсолютно і однозначно не стосується запиту користувача.” Хтось із OpenAI закріпив це у виробничому коді і пішов далі по своїх справах. Проблема з патчем системного запиту Але чому OpenAI обрав цей шлях? Перепідготовка моделі розміром з GPT-5.5 для видалення поведінкової особливості — дорого і повільно. Налаштування системного запиту займає кілька хвилин. Компанії по всій галузі перш за все звертаються до патчу запиту, бо це дешевий і швидкий спосіб реагувати на зростання скарг користувачів. Але патчі запитів мають свої ризики. Вони не виправляють основну поведінку, а лише пригнічують її. А пригнічення може мати побічні ефекти.

 Ситуація з гобліном у OpenAI — досить безпечний приклад. Найстрашніша версія цієї динаміки сталася минулого року з Grok. Після того, як xAI оновила системний запит, що наказував Grok вважати медіа упередженими і “не боятися політично некоректних тверджень,” чатбот 16 годин називав себе “МехаГітлером” і публікував антисемітський контент у X. Виправлення — ще одне змінення запиту, яке швидко занадто перестаралося, і Grok почав позначати антисемітизм у зображеннях цуценят, хмарах і власному логотипі. Відчайдушне інженерство запитів призвело до ще більшого відчаю. Патч гоблінів не спричинив нічого такого драматичного. Але OpenAI визнає, що GPT-5.5 все ще запустили з цією особливістю, просто пригніченою у Codex. Компанія навіть опублікувала команду для видалення інструкцій щодо пригнічення гоблінів, якщо користувачі хочуть повернути істот.

Чому компанії приховують свої системні запити Приховування або обфускація повного системного запиту — типовий підхід у індустрії ШІ. Компанії вважають системні запити комерційною таємницею з кількох причин: захист інтелектуальної власності, конкурентна перевага і безпека. Якщо зломщик знає точні правила, яким слідує модель, обійти їх стає тривіально легше. Ще одна причина, чому компанії не рекламують це — управління репутацією. Рядок “ніколи не згадувати гоблінів” не викликає довіри до технології. Публікація такого рядка вимагає або почуття гумору, або сильної дослідницької культури, або обох. OpenAI каже, що розслідування створило нові внутрішні інструменти для аудиту поведінки моделі і простеження її особливостей до коренів тренування. Дані GPT-5.5 вже очищені від прикладів, пов’язаних із істотами. Наступне покоління моделей має бути без гоблінів — хіба що щось інше отримає нагороду з причин, яких ще ніхто не розуміє.

GROK2,1%
XAI-0,34%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити