Golden Finance сообщила, что OpenAI выпустила последнее исследование, используя мониторинг CoT (цепочка мыслей), она может предотвратить вредоносное поведение, такое как большие модели, говорящие чепуху и скрывающие истинные намерения, а также является одним из эффективных инструментов для надзора за супермоделями. OpenAI использует недавно выпущенную передовую модель o3-mini в качестве объекта мониторинга, а более слабую модель GPT-4o — в качестве монитора. Тестовая среда — это задача кодирования, которая требует от ИИ реализации функциональности в кодовой базе для прохождения модульных тестов. Результаты показали, что монитор CoT показал хорошие результаты в обнаружении систематического поведения «взлома вознаграждения» с коэффициентом запоминаемости до 95%, что намного превышает 60% поведения, которое только отслеживалось.
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
OpenAI выпускает CoT Monitoring, чтобы остановить вредоносное поведение больших моделей
Golden Finance сообщила, что OpenAI выпустила последнее исследование, используя мониторинг CoT (цепочка мыслей), она может предотвратить вредоносное поведение, такое как большие модели, говорящие чепуху и скрывающие истинные намерения, а также является одним из эффективных инструментов для надзора за супермоделями. OpenAI использует недавно выпущенную передовую модель o3-mini в качестве объекта мониторинга, а более слабую модель GPT-4o — в качестве монитора. Тестовая среда — это задача кодирования, которая требует от ИИ реализации функциональности в кодовой базе для прохождения модульных тестов. Результаты показали, что монитор CoT показал хорошие результаты в обнаружении систематического поведения «взлома вознаграждения» с коэффициентом запоминаемости до 95%, что намного превышает 60% поведения, которое только отслеживалось.