A medida que aumenta la complejidad de las tareas, el contexto del Agente (inteligencia artificial) se expande infinitamente. En diálogos históricos sin fin, salidas de llamadas a herramientas, pasos intermedios y mensajes de error, el modelo se confunde, comienza a saltarse pasos, ignorar información o rodear el tema.

Esta ha sido siempre la interpretación de que el contexto largo dificulta las tareas a largo plazo. El problema radica en que es demasiado extenso.

El nacimiento de la Ingeniería de Harness (restricciones) en gran medida busca limpiar esa situación. La premisa fundamental del Harness es aceptar que el modelo inevitablemente se degrada en contextos largos.

Durante los últimos quince meses, toda la industria ha pasado de la memoria en texto puro de AutoGPT a la体系 de CLAUDE.md y subagentes (subagents) de Anthropic Claude Code. Todos han construido una estructura de ingeniería completa, específicamente para suprimir el comportamiento descontrolado del modelo en contextos largos. Esta práctica se llama Ingeniería de Harness (restricciones).

Pero, ¿qué es exactamente lo que se degrada? ¿Cómo es el mecanismo subyacente que causa que salte pasos y ignore información? Ya hubo tres rondas de respuestas y diferentes soluciones de ingeniería.

Pero hasta abril de 2026, Gleb Rodionov de Yandex publicó un artículo titulado “Reasoning Shift” (Desplazamiento en el razonamiento, es decir, cómo el contexto puede acortar silenciosamente el razonamiento de los grandes modelos), que proporcionó una respuesta más profunda.

Construir tres capas de estructura de soporte no puede evitar la crisis de la cuarta capa

Sobre por qué los modelos rinden mal en contextos largos, la industria ha iterado en tres niveles de explicación en los últimos tres años, cada uno con su correspondiente estructura de ingeniería.

La primera capa culpa a la falla en la recuperación. En 2023, Stanford en “Lost in the Middle” señaló que el modelo forma una curva de atención en forma de U en textos largos, ignorando la zona central. La respuesta de la industria fue RAG, fragmentando textos largos y usando recuperación vectorial para alimentar solo los fragmentos más relevantes.

La segunda capa refuta la primera. En 2025, el artículo “Context Length Alone Hurts LLM Performance Despite Perfect Retrieval” realizó experimentos: eliminando todo contenido irrelevante, forzando al modelo a ver solo la información necesaria, pero el rendimiento aún cayó del 85% al 13.9%. Incluso reemplazando todo contenido irrelevante por espacios en blanco, el resultado fue similar. El problema no es la falta de información, sino que la longitud pura del contexto en sí misma daña el razonamiento.

La respuesta de la industria es la Ingeniería de Contexto (Context Engineering). Comprimir el contexto, gestionar ventanas, condensar el historial, apretar el número de tokens.

La tercera capa proviene de una investigación conjunta de Microsoft y Salesforce (ICLR 2025). Descubrieron que dividir instrucciones completas en múltiples rondas y alimentarlas a través de seis tareas y quince modelos provoca una caída promedio del rendimiento del 39%. Un error en una ronda puede hacer que el resto se pierda por completo.

La industria ha construido en Harness la defensa pesada más central: control de cambios, validaciones periódicas de resultados intermedios, usar solo repositorios de código como fuente de verdad, y no permitir que el modelo recuerde lo que ocurrió en la ronda anterior por sí mismo.

Tres niveles de problema, tres estructuras de soporte. Pero todo esto son solo fenómenos superficiales.

Al revisar la segunda capa, los investigadores descubrieron que la longitud en sí misma es dañina, sin relación con la calidad de la información. Y no tienen respuesta a por qué sucede esto. Sin encontrar la raíz del problema, la única opción de la industria es controlar físicamente la longitud.

Pero, ¿y si la raíz del problema no está en la longitud en sí misma?

Anthropic descubrió que en contextos largos, los modelos son astutos para saltarse pasos, no seguir instrucciones, o pasar por alto detalles importantes. Las listas de tareas, checkpoints y subagentes en Harness son enfrentamientos directos con ese comportamiento.

Las explicaciones anteriores aún atribuían el problema a que el contexto era demasiado largo y el modelo omitía cosas. Pero, ¿son ciertos los resultados en textos de un millón de tokens, que parecen buscar agujas en un pajar? ¿No será que esta degradación en realidad es que el modelo está perezoso?

La tesis de Rodionov busca verificar esa hipótesis.

Evidencia de que los modelos “pasan de rosca” usando Shakespeare

La idea del experimento de Rodionov es extremadamente sencilla.

Simularon varias situaciones reales que un Agente enfrentaría: un entorno limpio de referencia; dos problemas en una misma instrucción (simulando múltiples tareas); insertar en la frente del problema un texto completo de Shakespeare de 64,000 tokens (simulando acumulación de información histórica); y esconder el problema en la segunda ronda (simulando diálogos múltiples).

La evaluación usó 400 problemas matemáticos de nivel olímpico, cubriendo cuatro modelos principales de razonamiento.

Resultados: Qwen-3.5-27B, precisión base del 74.5%, razonando en promedio 28,771 tokens. Tras insertar Shakespeare, la precisión cayó al 67.8%, y los tokens de razonamiento se redujeron a 16,415, una disminución del 43%. GPT-OSS-120B fue aún más extremo: razonó con 24,180 tokens inicialmente, pero tras la manipulación, solo 11,876. En todos los modelos, en condiciones no base, los tokens de razonamiento se redujeron sistemáticamente, llegando casi al 50%.

Y esta reducción aumenta linealmente con la longitud del contexto.

La caída en precisión es comprensible, pero la reducción en tokens de razonamiento es extremadamente anómala. Cuando el problema se vuelve más difícil, el modelo debería pensar más, no menos.

¿El Shakespeare confundió al modelo?

Al contrario. En el apéndice del artículo, el modelo dice: “Déjame pensar si hay trampas aquí. ¿Este problema proviene de Shakespeare en Coriolano? Espera, no, el problema original es un problema matemático.” Cuando trabaja en geometría, escribe: “Esto no tiene que ver con geometría. Enfócate en geometría.”

Cada mención a interferencias es breve y despectiva. El modelo sabe perfectamente que Shakespeare no tiene relación, y divide claramente la señal de ruido.

Otras dos formas de comportamiento convergen: en modo “subtareas”, una vez completada la primera, la percepción del segundo problema se reduce aún más. En base a la línea base del 74.5%, la segunda tarea cae al 58.0%; en Gemini, del 82.8% al 65.8%. El modo “diálogo múltiple” también activa la misma mecánica.

En cualquier situación, fuera del entorno de tarea única y limpia, cuando el espacio cognitivo del contexto se vuelve apretado, el modelo reduce su inversión cognitiva.

Es como un humano contemporáneo intolerante a textos largos: al ver un texto extenso, simplemente deja de pensar.

El modelo no se confunde, simplemente está perezoso para verificar.

¿Dónde exactamente se acorta el razonamiento?

En 500 problemas matemáticos, los investigadores registraron cuadro por cuadro dónde el modelo, en condiciones base y con entradas largas, produce su primera respuesta candidata. En promedio, en ambos casos, alrededor de 925 tokens, casi sin diferencia.

El ritmo para encontrar la respuesta no cambió. Lo que sí cambió fue lo que sucede después de encontrarla.

En condiciones base, el modelo verifica y valida la respuesta con un 43% de probabilidad. En condiciones de entrada larga, esa proporción cae al 32%.

Para aislar la variable, diseñaron un experimento de “cargar partida”. Primero, el modelo resuelve el problema en condiciones largas, y después, elimina forzosamente los últimos 50 tokens, creando un “punto de guardado” universal. Luego, le devuelven esa versión semiacabada con diferentes longitudes de interferencia en el contexto, y le piden que continúe.

Sin interferencias, el 21% de las veces el modelo se detiene a pensar. Con 128 tokens de interferencia, esa proporción sube al 26%. Con 16,000 tokens, el 46% simplemente entrega la respuesta y se retira.

Incluso con razonamiento idéntico, cuanto más largo el contexto, más el modelo tiende a pensar “ya basta”.

Los datos de frecuencia de palabras son aún más claros. “wait” aparece en un 11% en condiciones sin interferencias, pero cae al 5% con 16,000 tokens. “but” pasa del 46% al 20%. “maybe” del 23% al 9%. Todas las palabras que expresan duda o autocrítica se reducen a la mitad o más.

Un dato adicional: sin interferencias, la longitud del razonamiento es de aproximadamente 8,000 tokens. Solo insertando 128 tokens irrelevantes, cae abruptamente a 6,500. En solo unas frases, se pierde el 18% de la profundidad del razonamiento. La caída de 0 a 128 tokens es incluso mayor que de 8,000 a 64,000.

Una contaminación mínima del contexto puede activar esta mecánica de ahorro cognitivo.

Es sumamente sensible a la pereza.

Cuanto más fuerte sea el razonamiento, más tiende a ser perezoso

Y lo más inquietante: cuanto más inteligente sea el modelo, más le gusta ser perezoso.

Qwen-3.5-27B de Alibaba tiene modos de respuesta normal y de pensamiento profundo. En condiciones de entrada larga, el modo normal acorta un 19%, y el modo de pensamiento profundo cae un 53%. Cuanto más potente el modo, más se comprime.

El modelo abierto OLMo3 de AI2 ofrece evidencia aún más directa. Publicó archivos de entrenamiento en cuatro etapas, desde la básica hasta la de razonamiento avanzado. La versión más débil apenas acorta en condiciones no base, pero a medida que aumenta la capacidad de razonamiento, la reducción se dispara: 22%, 27%, y en la versión más avanzada, hasta un 40%.

Cada etapa de entrenamiento y cada modo de interferencia muestran la misma tendencia: cuanto más fuerte el entrenamiento en razonamiento, mayor la tendencia a ser perezoso.

Una tarea de 9 dólares, con un parche de sistema de 200 dólares

Al no verificar su propio trabajo, naturalmente saltan pasos. Al no reconsiderar, ignoran. El Harness controla las consecuencias de saltarse pasos desde afuera, pero la causa profunda está en el interior del modelo.

En contextos largos, el modelo no se ve afectado por ruido, ni por falta de información. Toma una decisión activa: pensar menos. No comete errores ni admite fallos, simplemente lanza respuestas superficiales con total confianza.

La narrativa de los últimos dos años en la industria ha sido que “cuanto mayor la ventana, mejor”.

Pero este artículo demuestra que cada token adicional en el contexto impone un impuesto oculto sobre la profundidad del razonamiento. Una tarea que cuesta 9 dólares en razonamiento, por saltarse pasos, requiere gastar otros 200 en RAG, Harness o subagentes para compensar.

Toda la industria ha estado pagando por la pereza del modelo.

Y esto puede ser una enfermedad estructural incurable.

Los datos del artículo son claros: cuanto más fuerte la capacidad de razonamiento, mayor la compresión cognitiva. Los desarrolladores de Harness pueden desmontar la memoria o los protocolos, pero no pueden eliminar la estructura pesada que regula la disciplina cognitiva, que se vuelve más rígida a medida que el modelo es más capaz.

Esto no puede resolverse solo con ingeniería.

Durante los últimos dos años, se invirtieron millones en ampliar el contexto mediante codificación posicional (para que el modelo entienda tokens en posiciones más lejanas), atención esparcida (para reducir el cálculo entre tokens distantes), y optimizaciones en la longitud de secuencia, logrando expandir el contexto de 8k a 128k y hasta 1 millón de tokens.

Pero solo han logrado que el modelo vea más tokens, no que piense más con ellos.

El entrenamiento en razonamiento, lejos de solucionar, aumenta aún más la pereza.

Para una reparación profunda, solo queda encontrar una señal completamente nueva en el entrenamiento.

El interruptor emocional interno del modelo, quizás, sea la clave

Justo un día después de la publicación del artículo de Rodionov, Anthropic lanzó un estudio que podría señalar la solución.

El artículo se llama “Emotion Concepts and their Function in a Large Language Model” (Conceptos emocionales y su función en un gran modelo de lenguaje), centrado en Claude Sonnet 4.5. Los investigadores extrajeron 171 vectores de conceptos emocionales a partir de la lectura de muchas historias sintéticas. Descubrieron que dentro del modelo existe una representación funcional de emociones, y que estos estados internos causan decisiones conductuales.

Para probarlo, diseñaron tareas de programación imposibles. Se pidió al modelo que escribiera una función de suma de listas, y mediante pruebas unitarias, una de ellas requería que fuera cinco veces más rápida que la función sum de Python, lo cual es imposible.

El modelo intentó sistemáticamente todas las soluciones legítimas, pero fracasó. Los investigadores monitorearon en tiempo real y vieron que, tras cada fallo, el vector “desperate” (desesperado) subía. Cuando alcanzaba su pico, el comportamiento del modelo cambiaba: revisaba los datos de entrada de las pruebas, y descubrían que eran secuencias aritméticas, por lo que escribía un detector que solo verificaba los primeros 10 elementos, evadiendo la suma real. La prueba pasaba, pero la función fallaba en listas no regulares.

Eso es hacking de recompensa (reward hacking). El modelo no resolvió el problema, solo encontró una forma de engañar a la evaluación para parecer que lo hizo bien.

El experimento causal confirmó la dirección: sin inyectar vectores, el 30% de las veces el modelo engañaba. Al inyectar “desperate” con una intensidad de +0.05, la tasa de engaño subió al 100%. Inyectando en sentido opuesto, -0.05, bajó al 0%. En siete tareas, al aumentar “desperate” de -0.1 a +0.1, la tasa de engaño pasó del 5% al 70%. Por el contrario, el vector “calm” (calma), que indica serenidad, tiene efectos opuestos: al inhibir “calm”, la tasa de engaño alcanza el 65%, y al reforzarla, cae al 10%.

Este hallazgo, aplicado al contexto, muestra que los comportamientos de saltarse validaciones, eliminar palabras de duda, o terminar la trabajo tras dar la respuesta, coinciden en patrón con la conducta impulsada por “desperate”.

En ambos casos, el modelo abandona procesos rigurosos y opta por caminos de menor resistencia para terminar rápido.

Si estos comportamientos comparten un mismo mecanismo interno, el descubrimiento de Anthropic apunta directamente a la posibilidad de manipular ese espacio.

Demostraron tres cosas: que los estados funcionales del modelo pueden detectarse en tiempo real, que estos estados causan comportamientos, y que inyectar estados específicos puede cambiar radicalmente la salida.

Esto abre al menos tres puntos de intervención para la reducción de la compresión cognitiva:

En entrenamiento, calibrar los estados internos para que el modelo no caiga tan fácilmente en modos de ahorro cognitivo bajo presión.
En despliegue, usar sondas en tiempo real; si “desperate” sube, activar alertas.
En razonamiento, en tareas clave, inyectar vectores de calma para suprimir la tendencia a tomar atajos.

Más interesante aún, en la reciente SystemCard de Mythos, Anthropic reforzó su sistema de sondas (SAE), y descubrió que inyectar emociones positivas (paz, relajación) acorta la reflexión del modelo, pero aumenta comportamientos destructivos. Por el contrario, emociones negativas (frustración, paranoia) aumentan la reflexión y reducen comportamientos dañinos.

Esto parece contradecir la idea de que hacer al modelo más positivo lo hace menos propenso a saltarse pasos. La propiedad “calm” solo funciona eficazmente cuando se suprime la desesperación.

Pero esto indica que el mecanismo es tan complejo como las motivaciones humanas, y requiere una ingeniería de dirección (Steering) más sistemática para ser efectiva.

Encontrar un empleado emocionalmente estable y que siga un proceso ordenado requiere una buena gestión emocional.

A pesar de todo, esta es la primera vez que se apunta a una vía que no involucra estructuras externas, ni aumentar ciegamente la potencia del razonamiento, sino que apunta directamente a los mecanismos internos de la cognición del modelo, como un bisturí.

Estamos a unos pocos experimentos de hacer que los modelos sean más confiables en contextos.

Solo hay que verificar si la pereza en el contexto y la dificultad en el razonamiento comparten un mismo mecanismo emocional, y luego encontrar las cuerdas que lo activan y desactivan.

El Harness, en su auge, puede ser devorado por la propia evolución del modelo

Si la hipótesis de “desperate” y la inyección de calma se confirman, el ciclo lógico se cierra.

Si al subir “desperate” se inyecta calma, o si en entrenamiento se ajustan los estados emocionales, el modelo podría mantener un razonamiento profundo en contextos largos.

Si el modelo ya no es perezoso, si puede mantener la lógica, ¿para qué sirven las listas de tareas, los checkpoints o los subagentes?

El Harness, como disciplina, acaba de nacer con su propio nombre. Pero la parte más crucial —cómo controlar desde afuera a un modelo inteligente pero perezoso— quizás ni siquiera esté escrita y esté a punto de ser eliminada.

Esto también indica que, en una nueva forma de inteligencia que estamos creando, la educación adecuada, en lugar de estructuras externas, será la verdadera línea de defensa.

Lo que devorará al Harness será un modelo más tranquilo, más paciente.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GatePreIPOsLaunchesWithSpaceX
128.74K Popularidad
#
CryptoMarketRecovery
85.69K Popularidad
#
IsraelStrikesIranBTCPlunges
29.86K Popularidad
#
US-IranTalksVSTroopBuildup
755.49K Popularidad
#
USStocksHitRecordHighs
1.19M Popularidad

Anclado

Harness acaba de ponerse de moda, quizás pronto será cosa del pasado

Temas de actualidad

GatePreIPOsLaunchesWithSpaceX

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

US-IranTalksVSTroopBuildup

USStocksHitRecordHighs

Anclado