a16z: La implementación de grandes modelos equivale a perder la memoria, ¿puede el «aprendizaje continuo» romper este ciclo vicioso?

Question

Autor: Malika Aubakirova, Matt Bornstein

Compilado: Deep潮 TechFlow

Deep潮 introducción: Los modelos de lenguaje grande (LLMs) una vez entrenados quedan “congelados”, y tras su despliegue solo pueden mantenerse en funcionamiento mediante parches externos como ventanas de contexto, RAG, etc. En esencia, son como pacientes con amnesia en “Memento”: pueden recuperar información, pero no aprender cosas nuevas de verdad. Dos socios de a16z analizan esta frontera de investigación llamada “aprendizaje continuo”, desglosando en tres caminos — contexto, módulos y actualización de pesos — una tecnología que podría redefinir los límites de la inteligencia artificial.

En “Memento” de Christopher Nolan, el protagonista Leonard Shelby vive en un presente fragmentado. Una lesión cerebral le causa amnesia anterógrada, incapaz de formar nuevos recuerdos. Cada pocos minutos, su mundo se reinicia, atrapado en un “ahora” eterno, sin recordar qué acaba de suceder ni qué pasará después. Para seguir adelante, se tatúa palabras, usa fotos instantáneas, y recurre a estos dispositivos externos para suplir la función de memoria que su cerebro no puede cumplir.

Los modelos de lenguaje también viven en un presente eterno similar. Tras el entrenamiento, su vasto conocimiento queda congelado en los parámetros, incapaces de formar nuevos recuerdos o actualizarse con experiencias recientes. Para compensar esto, construimos estructuras auxiliares: el historial de chat actúa como notas a corto plazo, los sistemas de recuperación como cuadernos externos, y las instrucciones como tatuajes en la piel. Pero el modelo en sí nunca internaliza realmente esa información nueva.

Cada vez más investigadores consideran que esto no basta. El aprendizaje por contexto (ICL) solo funciona si las respuestas (o fragmentos de ellas) ya existen en algún rincón del mundo. Pero para problemas que requieren descubrimiento genuino (como nuevas demostraciones matemáticas), escenarios adversos (como ciberseguridad), o conocimientos demasiado implícitos o no expresables en palabras, hay razones para pensar que: los modelos necesitan una forma de escribir directamente en sus parámetros, con conocimientos y experiencias nuevas, después del despliegue.

El aprendizaje por contexto es temporal. El aprendizaje real requiere compresión. Antes de que permitamos que el modelo siga comprimiendo, probablemente estamos atrapados en el presente eterno de “Memento”. En cambio, si pudiéramos entrenar al modelo para que aprenda su propia arquitectura de memoria, en lugar de depender de herramientas externas, podríamos desbloquear una dimensión completamente nueva de escalabilidad.

Este campo de investigación se llama aprendizaje continuo (continual learning). Aunque no es nuevo (ver el trabajo de McCloskey y Cohen, 1989), creemos que es una de las direcciones más importantes en la IA actual. La explosión de capacidades en los últimos años ha ampliado la brecha entre lo que los modelos “saben” y lo que pueden “aprender”. El objetivo de este artículo es compartir lo que hemos aprendido de los principales investigadores en el área, clarificar los diferentes caminos del aprendizaje continuo, y promover su desarrollo en el ecosistema emprendedor.

Nota: La elaboración de este artículo fue posible gracias a profundas conversaciones con investigadores, doctorandos y emprendedores destacados, quienes generosamente compartieron sus trabajos y perspectivas en aprendizaje continuo. Desde fundamentos teóricos hasta desafíos prácticos en despliegue, sus ideas enriquecieron mucho más este texto que si lo hubiéramos escrito solos. ¡Gracias por su tiempo y aportes!

Primero, hablemos del contexto

Antes de defender el aprendizaje a nivel de parámetros (es decir, actualizar los pesos del modelo), hay que aceptar un hecho: el aprendizaje por contexto funciona. Y hay argumentos sólidos que indican que seguirá siendo relevante.

La esencia de los transformadores es ser predictores condicionales de tokens en secuencia. Con la secuencia correcta, pueden exhibir comportamientos sorprendentes sin modificar pesos. Por eso, técnicas como gestión de contexto, ingeniería de prompts, fine-tuning con instrucciones y ejemplos de pocos disparos son tan poderosas. La inteligencia está en los parámetros estáticos, y su capacidad se manifiesta con el contenido que se les alimenta en la ventana.

Un ejemplo reciente de Cursor sobre escalado de agentes inteligentes autónomos es ilustrativo: los pesos del modelo son fijos, y lo que hace que el sistema funcione es la cuidadosa orquestación del contexto — qué se introduce, cuándo se hace un resumen, cómo se mantiene la coherencia en horas de operación autónoma.

Otro ejemplo es OpenClaw. No fue popular por permisos especiales del modelo (que todos pueden usar), sino porque convirtió contexto y herramientas en un estado de trabajo muy eficiente: rastrea qué haces, estructura productos intermedios, decide cuándo reintroducir prompts, mantiene memoria persistente de tareas previas. OpenClaw elevó el “diseño de la carcasa” del agente a una disciplina independiente.

Cuando surgieron los prompts, muchos investigadores dudaban de que “solo con prompts” pudiera ser una interfaz seria. Parecía un hack. Pero en realidad, es la forma nativa del diseño Transformer, sin necesidad de reentrenar, y que evoluciona con los avances del modelo. A medida que el modelo mejora, también lo hacen los prompts. La interfaz “simple pero nativa” suele ganar porque se acopla directamente al sistema subyacente, en lugar de luchar contra él. Hasta ahora, esa ha sido la trayectoria del desarrollo de los LLM.

Modelo de espacio de estado: la versión “esteroide” del contexto

A medida que las principales metodologías migran de llamadas a LLMs a ciclos de agentes inteligentes, la presión sobre los modelos de aprendizaje por contexto aumenta. Antes, era raro que la ventana de contexto se llenara por completo. Esto ocurría cuando un LLM debía completar una larga serie de tareas discretas, y la capa de aplicación podía recortar y comprimir el historial de chat de forma relativamente sencilla. Pero para un agente, una sola tarea puede consumir gran parte del contexto disponible. Cada paso del ciclo del agente depende del contexto transmitido por la iteración anterior. Y a menudo fallan tras 20 a 100 pasos, porque “se cortan”: el contexto se llena, la coherencia se degrada, y no convergen.

Por eso, los principales laboratorios de IA invierten mucho en modelos con ventanas de contexto ultra largas. Es un camino natural, basado en métodos efectivos (aprendizaje por contexto) y alineado con la tendencia de la industria hacia razonamiento y cálculo en tiempo real. La arquitectura más común inserta capas de memoria fija entre cabezales de atención, formando modelos de espacio de estado (SSM) y variantes de atención lineal (denominados en adelante SSM). Los SSM ofrecen curvas de escalado mucho mejores en escenarios de contexto largo.

Figura: comparación de escalado entre SSM y atención tradicional

El objetivo es que los agentes puedan mantener coherencia en miles de pasos, pasando de unos 20 a unos 20,000, sin perder las habilidades y conocimientos que ofrecen los Transformers tradicionales. Si se logra, sería un avance importante para agentes de larga duración. Incluso puede verse como una forma de aprendizaje continuo: aunque no se actualicen los pesos, se introduce una capa de memoria externa que casi no requiere reinicios.

Por eso, estos métodos no paramétricos son reales y poderosos. Cualquier evaluación del aprendizaje continuo debe partir de aquí. La pregunta no es si los sistemas de contexto actuales son útiles — lo son. La cuestión es si ya hemos alcanzado un techo, y si nuevas metodologías nos pueden llevar más lejos.

¿Qué falta en el contexto? “El error del archivo”

“Lo que pasa con la AGI y el preentrenamiento es que, en cierto sentido, se sobreajustaron… Los humanos no somos AGI. Sí, tenemos una base de habilidades, pero carecemos de mucho conocimiento. Dependemos del aprendizaje continuo. Si creara un adolescente súper inteligente, no sabría nada. Es un buen estudiante, con muchas ganas de aprender. Puedes decirle: sé programador, sé médico. El despliegue en sí mismo implica un proceso de aprendizaje y prueba y error. Es un proceso, no simplemente lanzar un producto terminado.” — Ilya Sutskever

Imagina un sistema con espacio de almacenamiento infinito. La mayor “archivadora” del mundo, donde cada hecho está perfectamente indexado y puede recuperarse al instante. Puede encontrar cualquier cosa. ¿Ha aprendido?

No. Nunca se vio obligado a hacer compresión.

Este es el núcleo de nuestro argumento, que cita una idea previa de Ilya Sutskever: los LLM son esencialmente algoritmos de compresión. Durante el entrenamiento, comprimen internet en parámetros. La compresión es pérdida, y esa pérdida es lo que los hace poderosos. La compresión obliga al modelo a buscar estructuras, generalizar, y construir representaciones que puedan transferirse entre contextos. Un modelo que memorice todos los ejemplos de entrenamiento no es tan efectivo como uno que extrae reglas subyacentes. La compresión con pérdida en sí misma es aprendizaje.

Irónicamente, la misma mecánica que hace a los LLM tan poderosos durante el entrenamiento — comprimir datos originales en representaciones compactas y transferibles — es lo que rechazamos hacer después del despliegue. Detuvimos la compresión en el momento de publicar, y en su lugar usamos memoria externa. Aunque muchos agentes usan compresión en sus contextos, la lección amarga (bitter lesson) es que los modelos deberían aprender a comprimir por sí mismos, de forma directa y a gran escala.

Yu Sun comparte un ejemplo para ilustrar esta discusión: las matemáticas. Considera el teorema de Fermat. Durante más de 350 años, ningún matemático pudo demostrarlo, no por falta de documentación, sino porque la solución era altamente innovadora. La distancia conceptual entre el conocimiento matemático existente y la respuesta final era enorme. Cuando Andrew Wiles lo resolvió en los 90, trabajó casi siete años en aislamiento, inventando nuevas técnicas para llegar a la demostración. Su prueba dependió de conectar dos ramas distintas de las matemáticas: curvas elípticas y formas modulares. Aunque Ken Ribet ya había demostrado que esa conexión resolvería Fermat, antes de Wiles nadie tenía las herramientas teóricas para construir ese puente. La demostración de Perelman del conjetura de Poincaré puede hacer un análisis similar.

La cuestión central es: ¿estos ejemplos prueban que los LLM carecen de algo, de una capacidad para actualización previa y pensamiento creativo? ¿O, por el contrario, muestran que todos los conocimientos humanos son solo datos que pueden ser entrenados y reorganizados, y que Wiles y Perelman simplemente demostraron que los LLM pueden hacer lo mismo a mayor escala?

Es una cuestión empírica, cuya respuesta aún no está clara. Pero sabemos que hay categorías de problemas donde el aprendizaje por contexto falla hoy, y el aprendizaje a nivel de parámetros puede ser útil. Por ejemplo:

Figura: categorías de problemas donde el aprendizaje por contexto fracasa y el aprendizaje por parámetros puede ganar

Más importante aún, el aprendizaje por contexto solo puede manejar cosas que puedan expresarse en lenguaje, mientras que los pesos pueden codificar conceptos que los prompts no pueden transmitir. Algunos patrones son demasiado complejos, implícitos o estructurados en niveles profundos, y no caben en la ventana de contexto. Por ejemplo, distinguir entre artefactos benignos y tumores en escáneres médicos, o definir el ritmo único de un hablante en microvariaciones de audio. Estos patrones no se pueden descomponer en vocabulario preciso. El lenguaje solo los aproxima. Incluso con ventanas de contexto muy largas, no se puede transmitir todo; ese conocimiento solo vive en los pesos, en las representaciones latentes, no en las palabras. Siempre habrá conocimientos que solo pueden ser almacenados en los parámetros, en un espacio de representación que no es texto.

Esto quizás explique por qué funciones explícitas como “el robot recuerda” (como la memoria en ChatGPT) a menudo generan incomodidad en los usuarios, en lugar de asombro. Lo que realmente quieren los usuarios no es “recordar”, sino “tener la capacidad”. Un modelo internalizado con tu comportamiento puede generalizar a nuevos escenarios; uno que solo recupere tu historial no puede. La diferencia entre “esto fue lo que escribiste en tu último correo” (repetición literal) y “ya entiendo tu forma de pensar y puedo anticipar lo que necesitas” es la diferencia entre recuperación y aprendizaje.

Introducción al aprendizaje continuo

El aprendizaje continuo tiene varias rutas. La línea divisoria no es si hay memoria o no, sino: ¿dónde ocurre la compresión? Estas rutas se distribuyen en un espectro, desde sin compresión (solo recuperación, pesos congelados) hasta compresión total (aprendizaje a nivel de pesos, haciendo al modelo más inteligente), pasando por un espacio intermedio (módulos).

Figura: tres caminos del aprendizaje continuo — contexto, módulos, pesos

Contexto

En el extremo del contexto, los equipos construyen sistemas de recuperación más inteligentes, “carcasas” de agentes y prompts mejor orquestados. Es la categoría más madura: infraestructura probada, despliegue claro. La limitación principal es la longitud del contexto.

Una dirección emergente interesante es la arquitectura multi-agente como estrategia de escalado del contexto. Si un solo modelo está limitado a 128K tokens, un grupo coordinado de agentes — cada uno con su propio contexto, enfocado en una parte del problema, comunicándose entre sí — puede simular una memoria de trabajo casi infinita. Cada agente aprende en su ventana, y el sistema hace agregación. Proyectos como autoresearch de Karpathy y ejemplos de navegadores web en Cursor son casos tempranos. Es un método puramente no paramétrico (sin modificar pesos), pero que eleva mucho el límite de lo que los sistemas de contexto pueden lograr.

Módulos

En el espacio de módulos, los equipos construyen componentes de conocimiento plug-and-play (cachés KV comprimidos, capas adaptadoras, almacenamiento externo), permitiendo que modelos generales se especialicen sin reentrenar. Un modelo de 8B con módulos adecuados puede igualar el rendimiento de un modelo de 109B en tareas específicas, con un uso de memoria mucho menor. La ventaja es la compatibilidad con infraestructuras Transformer existentes.

Pesos

En la actualización de pesos, los investigadores persiguen un aprendizaje a nivel de parámetros real: actualizar solo fragmentos relevantes mediante capas de memoria esparcidas, optimizar el modelo con feedback en ciclos de refuerzo, o entrenar en tiempo de inferencia para comprimir contexto en los pesos (test-time training). Son métodos profundos y difíciles de desplegar, pero que permiten que el modelo internalice completamente nueva información o habilidades.

Diversas líneas de investigación en actualización de pesos:

Figura: visión general de las direcciones en aprendizaje a nivel de pesos

Las líneas en actualización de pesos son paralelas. La regularización y los métodos en el espacio de pesos son los más antiguos: EWC (Kirkpatrick et al., 2017) penaliza cambios en parámetros importantes para tareas previas; interpolación de pesos (Kozal et al., 2024) combina configuraciones viejas y nuevas, aunque en gran escala son frágiles. El entrenamiento en prueba (test-time training), iniciado por Sun et al. (2020), evolucionó en primitivas arquitectónicas (capas TTT, TTT-E2E, TTT-Discover), que hacen gradientes en datos de prueba para comprimir información en los pesos en el momento justo. El meta-aprendizaje pregunta: ¿podemos entrenar modelos que aprendan a aprender? Desde la inicialización de pocos disparos de MAML (Finn et al., 2017) hasta Nested Learning (Behrouz et al., 2025), que estructura el modelo como un problema jerárquico de optimización con módulos que se adaptan rápido y otros que se actualizan lentamente, inspirado en la consolidación de la memoria biológica.

La destilación mantiene conocimientos previos haciendo que un modelo estudiante iguale un punto de control de un maestro congelado. LoRD (Liu et al., 2025) combina poda y reproducción en búfer para hacer la destilación eficiente y continua. Auto-distilación (SDFT, Shenfeld et al., 2026) invierte la fuente: usa la salida del modelo en modo experto como señal de entrenamiento, evitando el olvido catastrófico del fine-tuning secuencial. La auto-mejora recursiva sigue ideas similares: STaR (Zelikman et al., 2022) guía el razonamiento a partir de cadenas de inferencias auto-generadas; AlphaEvolve (DeepMind, 2025) descubre algoritmos que no se han mejorado en décadas; y “la era de la experiencia” de Silver y Sutton (2025) define el aprendizaje del agente como un flujo ininterrumpido de experiencias.

Estas líneas convergen. TTT-Discover combina entrenamiento en prueba y exploración guiada por RL. HOPE anida ciclos de aprendizaje rápido y lento en una sola arquitectura. SDFT convierte la destilación en una operación de auto-mejora fundamental. Los límites entre estrategias se difuminan. La próxima generación de sistemas de aprendizaje continuo probablemente combinará varias: regularización para estabilidad, meta-aprendizaje para aceleración, auto-mejora para efectos compuestos. Cada vez más startups apuestan a esta pila tecnológica en diferentes niveles.

Mapa del emprendimiento en aprendizaje continuo

En el extremo no paramétrico, las empresas (Letta, mem0, Subconscious) construyen capas de orquestación y estructuras auxiliares que gestionan qué contenido entra en la ventana de contexto. Infraestructura de recuperación y RAG (como Pinecone, xmemory) proveen la columna vertebral. Los datos existen, pero el reto es poner la pieza correcta en el momento correcto. Con ventanas de contexto cada vez mayores, surgen nuevas startups para gestionar estrategias cada vez más complejas.

En el extremo paramétrico, las empresas experimentan con “compresión post-despliegue”, internalizando nueva información en los pesos. Sus apuestas varían en cómo y qué aprenden después del lanzamiento.

Compresión parcial: aprender sin reentrenar. Algunas construyen módulos plug-and-play (cachés KV comprimidos, capas adaptadoras, memoria externa) que permiten especializar modelos sin modificar pesos centrales. La idea común es obtener compresión significativa (más allá de recuperación), manteniendo un equilibrio entre estabilidad y plasticidad, ya que el aprendizaje está aislado y no disperso en todo el espacio de parámetros. Un modelo de 8B con módulos adecuados puede igualar a uno mucho más grande en tareas específicas. La ventaja es la modularidad: se puede integrar con infraestructura Transformer existente, intercambiar o actualizar módulos independientemente, y reducir costos de experimentación.

Aprendizaje por refuerzo y ciclos de retroalimentación: aprender de las señales. Otros apuestan a que los mejores datos de aprendizaje están en el ciclo de despliegue: correcciones de usuarios, éxito o fracaso en tareas, recompensas del mundo real. La idea es que el modelo vea cada interacción como una potencial señal de entrenamiento, no solo una consulta. Esto refleja cómo los humanos mejoran en el trabajo: hacer, recibir feedback, internalizar métodos efectivos. El desafío técnico es convertir señales dispersas, ruidosas y a veces adversariales en actualizaciones estables, evitando el olvido catastrófico. Pero un modelo que aprenda en despliegue puede generar efectos compuestos que los sistemas de contexto no logran.

Aprendizaje centrado en datos: aprender de señales correctas. Otra apuesta relacionada es que el cuello de botella no está en el algoritmo, sino en los datos y sistemas circundantes. Estos equipos se enfocan en filtrar, generar o sintetizar datos de alta calidad para impulsar actualizaciones continuas: un modelo con buena señal de aprendizaje requiere menos pasos de gradiente para mejorar. Esto conecta con empresas de retroalimentación, pero pone énfasis en la calidad de los datos: si el modelo puede aprender, qué y cuánto debe aprender.

Nuevas arquitecturas: aprender desde el diseño fundamental. La apuesta más radical es que la arquitectura Transformer en sí misma es un cuello de botella, y que el aprendizaje continuo requiere un cambio profundo en los primitives computacionales: arquitecturas con dinámica continua y memoria incorporada. La idea es que, si quieres un sistema que aprenda de forma continua, debes integrar el mecanismo de aprendizaje en la base misma del sistema.

Figura: mapa de startups en aprendizaje continuo

Todos los principales laboratorios también exploran en estas categorías. Algunos mejoran gestión de contexto y razonamiento en cadena, otros experimentan con memoria externa o pipelines de cálculo en sueño, y algunos buscan nuevas arquitecturas. La frontera está en pañales, sin un método claramente dominante, y dado el amplio rango de aplicaciones, no debería haber solo un ganador.

¿Por qué la actualización ingenua de pesos puede fallar?

En producción, actualizar los pesos del modelo genera fallos que aún no están resueltos a escala masiva.

Figura: fallos de la actualización ingenua de pesos

Los problemas de ingeniería están bien documentados. El olvido catastrófico significa que un modelo sensible a datos nuevos para aprender puede destruir sus representaciones existentes — un dilema de estabilidad y plasticidad. La desacoplamiento temporal implica que reglas inmutables y estados variables se comprimen en los mismos pesos, y actualizar uno puede dañar al otro. La falla en integración lógica se debe a que las actualizaciones de hechos no se propagan a sus inferencias: los cambios se limitan a la secuencia de tokens, no a conceptos semánticos. El “desaprendizaje” (unlearning) sigue siendo difícil: no existe una operación diferenciable de resta, por lo que eliminar conocimiento tóxico o falso con precisión es un reto.

Hay otra categoría menos atendida. La separación entre entrenamiento y despliegue no es solo una conveniencia técnica, sino una frontera de seguridad, auditoría y gobernanza. Abrir esa frontera puede traer problemas: la alineación de seguridad puede deteriorarse impredeciblemente, incluso con microajustes en datos benignos. La actualización continua crea una superficie de ataque para envenenamiento de datos: una inyección lenta y persistente de prompts en los pesos. La auditabilidad se desploma, porque un modelo en constante cambio es un objetivo móvil, sin versiones ni pruebas de regresión. Cuando la interacción del usuario se internaliza en los pesos, los riesgos de privacidad aumentan, y la información sensible puede quedar “baked in” en las representaciones, más difícil de filtrar que en un contexto recuperado.

Estas son preguntas abiertas, no imposibles. Resolverlas, igual que los desafíos en arquitectura, forma parte de la agenda de investigación en aprendizaje continuo.

De “Memoria Fragmentada” a memoria real

La tragedia de Leonard en “Memento” no es que no pueda funcionar — en cada escenario, es ingenioso y hasta brillante. Su tragedia es que nunca puede hacer efecto compuesto. Cada experiencia queda en el exterior: una foto, un tatuaje, una nota manuscrita. Puede recuperar, pero no comprimir conocimiento nuevo.

Mientras Leonard navega en su laberinto auto-construido, la línea entre realidad y creencia se difumina. Su enfermedad no solo le quita la memoria; le obliga a reconstruir significado continuamente, convirtiéndolo en detective de su propia historia y en narrador poco confiable.

Hoy, la IA opera bajo restricciones similares. Construimos sistemas de recuperación muy poderosos: ventanas largas, carcasas inteligentes, múltiples agentes coordinados. Pero recuperar no equivale a aprender. Un sistema que solo recupera hechos no se ve obligado a buscar estructura, a generalizar. La compresión poderosa — transformar datos originales en representaciones transferibles — es lo que apagamos en el momento de desplegar. La dejamos de lado, usando memoria externa. Aunque muchos agentes usan compresión en sus contextos, la amarga lección (bitter lesson) es que los modelos deberían aprender a comprimir por sí mismos, de forma directa y a gran escala.

El camino probablemente no sea un solo avance, sino un sistema jerárquico. El aprendizaje por contexto seguirá siendo la primera línea de defensa: nativo, probado, en mejora continua. Los mecanismos modulares pueden abordar la personalización y especialización. Pero para los problemas más difíciles — descubrimiento, adaptación adversarial, conocimientos implícitos no expresables en palabras — quizás debamos hacer que el modelo siga comprimiendo experiencia en sus pesos después del entrenamiento. Esto requiere avances en arquitecturas dispersas, meta-aprendizaje y ciclos de auto-mejora. También puede implicar redefinir qué es un “modelo”: no solo un conjunto de pesos fijos, sino un sistema en evolución, que incluye memoria, algoritmos de actualización y capacidades de abstracción a partir de su propia experiencia.

Los archivos crecen, pero siguen siendo archivos. La verdadera innovación está en que el modelo pueda, en despliegue, aprender y abstraer — en definitiva, en que pase de ser un modelo amnésico a uno que posea una chispa de experiencia. De lo contrario, quedaremos atrapados en nuestra propia “Memoria Fragmentada”.

a16z: La implementación de grandes modelos equivale a perder la memoria, ¿puede el «aprendizaje continuo» romper este ciclo vicioso?

Temas de actualidad

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Anclado