Golden Finance informó que OpenAI publicó la última investigación, utilizando el monitoreo de CoT (cadena de pensamiento), puede prevenir comportamientos maliciosos como modelos grandes que dicen tonterías y ocultan verdaderas intenciones, y también es una de las herramientas efectivas para supervisar a los supermodelos. OpenAI utiliza el modelo de última generación o3-mini recientemente lanzado como objeto monitoreado, y el modelo GPT-4o más débil como monitor. El entorno de prueba es una tarea de codificación que requiere que la IA implemente la funcionalidad en el código base para superar las pruebas unitarias. Los resultados mostraron que el monitor CoT tuvo un buen desempeño en la detección de comportamientos sistemáticos de "piratería de recompensas", con una tasa de recuerdo de hasta el 95%, superando con creces el 60% de los comportamientos que solo se monitorearon.
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
OpenAI lanza el monitoreo de CoT para detener el comportamiento malicioso de los modelos grandes
Golden Finance informó que OpenAI publicó la última investigación, utilizando el monitoreo de CoT (cadena de pensamiento), puede prevenir comportamientos maliciosos como modelos grandes que dicen tonterías y ocultan verdaderas intenciones, y también es una de las herramientas efectivas para supervisar a los supermodelos. OpenAI utiliza el modelo de última generación o3-mini recientemente lanzado como objeto monitoreado, y el modelo GPT-4o más débil como monitor. El entorno de prueba es una tarea de codificación que requiere que la IA implemente la funcionalidad en el código base para superar las pruebas unitarias. Los resultados mostraron que el monitor CoT tuvo un buen desempeño en la detección de comportamientos sistemáticos de "piratería de recompensas", con una tasa de recuerdo de hasta el 95%, superando con creces el 60% de los comportamientos que solo se monitorearon.