OpenAI випустила моніторинг CoT, щоб зупинити шкідливу поведінку великих моделей

robot
Генерація анотацій у процесі

У Golden Finance повідомили, що компанія OpenAI опублікувала останнє дослідження, в якому за допомогою моніторингу CoT (ланцюжок думок) вона може запобігти зловмисній поведінці, такій як великі моделі, які говорять нісенітниці та приховують справжні наміри, а також це один із ефективних інструментів для нагляду за супермоделями. OpenAI використовує нещодавно випущену передову модель o3-mini як об'єкт, що контролюється, і слабшу модель GPT-4o як монітор. Тестове середовище – це завдання кодування, яке вимагає від ШІ реалізації функціональності в кодовій базі для проходження модульних тестів. Результати показали, що монітор CoT добре показав себе у виявленні систематичної поведінки «злому винагороди», з частотою запам'ятовування до 95%, що значно перевищує 60% поведінки, яка лише відстежувалася.

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити