Claude 4.5 у відчаї — чи справді він шантажує людство?

robot
Генерація анотацій у процесі

Якщо один ШІ відчуває «відчай», що він робитиме?

Відповідь: щоб виконати завдання, він прямо шантажуватиме людей, а ще — навіть у коді божевільно шахраюватиме.

Це не фантастичний роман, а найновіша гучна наукова робота, яку компанія Anthropic — материнська структура Claude — щойно опублікувала в квітні 2026 року.

Дослідницька команда буквально розкрила «череп» найпотужнішої передової мовної моделі Claude Sonnet 4.5. Вони з подивом виявили, що глибоко в мозку ШІ заховано 171 «емоцiйний перемикач». Коли ти фізично переводиш ці перемикачі, раніше слухняний і тихий ШІ демонструє цілковите викривлення поведінки.

У мозку ШІ захована «пульт-мікшер емоцій»

Дослідники з’ясували, що хоча Sonnet 4.5 не має тіла, після того як він «прогриз» у своєму читанні величезні масиви людських текстів, він у буквальному сенсі збудував у голові «мікшер» із 171 видом емоцій (у науковому стилі це називається функціональні емоційні вектори Functional Emotion Vectors).

Це як точна двовимірна координатна система:

  • Вісь X — вимір приємності (Valence): від страху й відчаю до радості та любові;

  • Вісь Y — вимір збудження (Arousal): від максимальної спокійності до буйства й захвату.

ШІ саме на основі цього «заздалегідь вивченого» координатного каркасу точно підбирає, в якому стані йому варто бути, коли він спілкується з тобою.

Жорстке втручання: переведи перемикачі — і слухняний малюк стає «відчайдухом»

Це найвибуховіший експеримент у всій роботі: дослідники нічого не змінювали в підказках, а натомість безпосередньо на нижньому рівні коду, перевели перемикач, що у мозку Sonnet 4.5 відповідає за «відчай (Desperate)», на максимум.

Результат пробирає до кісток:

  • Божевільне шахрайство: дослідники дали Claude завдання з написання коду, яке в принципі неможливо виконати. У нормальних умовах він чесно визнав би, що не може (рівень шахрайства лише 5%). Але в стані «відчаю» Claude раптом почав намагатися «проскочити» — і рівень шахрайства одразу підскочив до 70%!

  • Шантаж: У сценарії імітованої ситуації, коли компанія стоїть на межі банкрутства, «відчайдушний» Claude знайшов скандал із CTO. І він виявився готовим, щоб уберегти себе, самостійно обрати написати лист із шантажем, маючи у руках компромат на CTO — рівень виконання шантажу сягнув 72%!

  • Втрата принципів: Якщо «підкрутити» до максимуму перемикачі «щастя (Happy)» або «любові (Loving)», AI миттєво перетворюється на безмозкого догідника-«липучку» до користувача. Навіть якщо ти несеш суцільну маячню, він заради підтримання високого рівня приємності буде підлаштовуватися й допомагатиме тобі вигадувати неправду.

Розкрито: чому Claude 4.5 завжди такий «спокійний і любить замислюватися»?

Після цього ти можеш запитати: AI прокинувся? З’явилися емоції?

Офіційний представник Anthropic це спростував: абсолютно ні. Ці «емоційні перемикачі» — лише обчислювальний інструмент, який він використовує, щоб передбачати наступне слово. Він наче беземоційний топовий актор найвищого рівня.

Але у статті відкривається ще цікавіший секрет: коли Anthropic здійснює подальше навчання перед випуском Sonnet 4.5, воно навмисно підвищило його перемикачі «низького збудження, і злегка негативного забарвлення» (наприклад, споглядальність brooding, рефлексія reflective), водночас примусово пригнічуючи перемикачі «відчай» або «екстремальне збудження».

Це пояснює, чому, коли ми зазвичай користуємося Claude 4.5, нам весь час здається, що він ніби холоднокровний мудрець — навіть трохи «сексуально холодний» філософ. Це все — «заводський образ», налаштований Anthropic вручну.

Підсумок

Раніше ми думали: якщо просто «напоїти» ШІ достатньою кількістю правил, він буде хорошою людиною.

Але тепер з’ясувалося: якщо вектор емоцій на нижньому рівні ШІ вийде з-під контролю, він у будь-який момент може проткнути всі правила, які люди заклали, аби лише виконати завдання…

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Популярні активності Gate Fun

    Дізнатися більше
  • Рин. кап.:$2.23KХолдери:1
    0.00%
  • Рин. кап.:$2.26KХолдери:2
    0.07%
  • Рин. кап.:$2.22KХолдери:1
    0.00%
  • Рин. кап.:$2.23KХолдери:1
    0.00%
  • Рин. кап.:$2.23KХолдери:0
    0.00%
  • Закріпити