OpenAI випустила моніторинг CoT, щоб зупинити шкідливу поведінку великих моделей

Генерація анотацій у процесі

У Golden Finance повідомили, що компанія OpenAI опублікувала останнє дослідження, в якому за допомогою моніторингу CoT (ланцюжок думок) вона може запобігти зловмисній поведінці, такій як великі моделі, які говорять нісенітниці та приховують справжні наміри, а також це один із ефективних інструментів для нагляду за супермоделями. OpenAI використовує нещодавно випущену передову модель o3-mini як об'єкт, що контролюється, і слабшу модель GPT-4o як монітор. Тестове середовище – це завдання кодування, яке вимагає від ШІ реалізації функціональності в кодовій базі для проходження модульних тестів. Результати показали, що монітор CoT добре показав себе у виявленні систематичної поведінки «злому винагороди», з частотою запам'ятовування до 95%, що значно перевищує 60% поведінки, яка лише відстежувалася.

O33.56%

GPT-26.93%

Переглянути оригінал

Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.

Нагородити
подобається
Прокоментувати
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
#BTC#
192k публікації
#ETH#
120k публікації
#PI#
93k публікації
4#GateioInto11#
76k публікації
5#ContentStar#
64k публікації
6#BOME#
59k публікації
7#GT#
56k публікації
8#DOGE#
53k публікації
9#MAGA#
52k публікації
10#SLERF#
51k публікації

Закріпити

карта сайту