a16z : Le déploiement de grands modèles équivaut à une perte de mémoire, le « apprentissage continu » peut-il briser ce cercle vicieux ?

Question

Auteur : Malika Aubakirova, Matt Bornstein

Traduction : Deep潮 TechFlow

Lecture de Deep潮 : Les grands modèles de langage sont « gelés » une fois entraînés, et leur déploiement ne peut se maintenir qu’avec des patchs externes comme la fenêtre de contexte, RAG, etc. En essence, ils ressemblent aux patients amnésiques de « Memento » — capables de rechercher, mais incapables d’apprendre réellement de nouvelles choses. Deux partenaires d’a16z ont systématisé cette frontière de recherche qu’est « l’apprentissage continu », décomposant cette voie technologique qui pourrait redéfinir le plafond des capacités de l’IA, à travers trois axes : contexte, modules et mise à jour des poids.

Dans « Memento » de Christopher Nolan, le protagoniste Leonard Shelby vit dans un présent brisé. Une blessure cérébrale lui cause une amnésie antérograde, l’empêchant de former de nouveaux souvenirs. Toutes les quelques minutes, son monde se réinitialise, le piégeant dans un « instant » éternel, sans se souvenir de ce qui vient de se passer ni de ce qui va suivre. Pour survivre, il se tatoue, utilise un Polaroid, et s’appuie sur ces outils externes pour compenser la mémoire que son cerveau ne peut plus assurer.

Les grands modèles de langage vivent aussi dans un présent éternel similaire. Après l’entraînement, une quantité massive de connaissances est figée dans leurs paramètres : ils ne peuvent pas former de nouveaux souvenirs ni mettre à jour leurs paramètres avec de nouvelles expériences. Pour pallier cette faiblesse, on leur construit toute une infrastructure : l’historique de chat sert de mémo à court terme, un système de recherche comme carnet externe, et les prompts comme tatouages. Mais le modèle lui-même n’a jamais internalisé ces nouvelles informations.

De plus en plus de chercheurs pensent que cela ne suffit pas. L’apprentissage par contexte (ICL) suppose que la réponse (ou ses fragments) existe déjà quelque part dans le monde. Mais pour des questions nécessitant une véritable découverte (comme une nouvelle preuve mathématique), dans des scénarios adverses (sécurité, cyberattaque), ou pour des connaissances trop implicites ou non exprimables en langage, il y a de bonnes raisons de croire que : le modèle doit pouvoir, après déploiement, écrire directement ces nouvelles connaissances et expériences dans ses paramètres.

L’apprentissage par contexte est temporaire. Un vrai apprentissage nécessite une compression. Avant que nous ne permettions au modèle de continuer à compresser, il pourrait être piégé dans ce présent éternel de « Memento ». En revanche, si nous pouvions entraîner le modèle à apprendre sa propre architecture de mémoire, plutôt que de dépendre d’outils externes, cela pourrait débloquer une toute nouvelle dimension de scalabilité.

Ce domaine de recherche s’appelle l’apprentissage continu (continual learning). Bien que ce concept ne soit pas nouveau (voir la publication de McCloskey et Cohen en 1989), nous pensons qu’il constitue l’un des axes de recherche les plus cruciaux en IA aujourd’hui. La croissance explosive des capacités des modèles ces deux ou trois dernières années a creusé le fossé entre ce que le modèle « sait » et ce qu’il « peut » savoir. Cet article vise à partager ce que nous avons appris des meilleurs chercheurs dans ce domaine, à clarifier les différentes voies de l’apprentissage continu, et à encourager son développement dans l’écosystème entrepreneurial.

Note : La maturation de cet article a été rendue possible par des échanges approfondis avec une communauté de chercheurs, doctorants et entrepreneurs, qui ont généreusement partagé leur travail et leurs idées dans le domaine de l’apprentissage continu. Leur perspective, allant de la théorie à la pratique en déploiement, a enrichi considérablement ce texte. Merci à tous pour votre temps et vos idées !

Commençons par le contexte

Avant de défendre l’apprentissage par mise à jour des paramètres (c’est-à-dire la modification des poids du modèle), il faut reconnaître une vérité : l’apprentissage par contexte fonctionne réellement. Et une argumentation solide indique qu’il continuera à l’emporter.

L’essence du Transformer est un prédicteur conditionnel basé sur une séquence : en lui fournissant la bonne séquence, on obtient des comportements riches et surprenants, sans toucher aux poids. C’est pourquoi la gestion du contexte, l’ingénierie des prompts, le fine-tuning par instructions, et l’apprentissage à peu d’exemples sont si puissants. La capacité intelligente est encapsulée dans des paramètres statiques, mais elle varie fortement avec le contenu fourni dans la fenêtre.

L’article récent de Cursor sur la montée en puissance des agents autonomes à grande échelle illustre bien cela : les poids du modèle sont fixes, ce qui fait fonctionner le système, c’est la mise en scène précise du contexte — ce qu’on met dedans, quand faire un résumé, comment maintenir la cohérence lors d’une opération autonome de plusieurs heures.

OpenClaw est un autre exemple. Son succès ne vient pas d’un modèle avec des permissions spéciales (tout le monde peut utiliser le modèle de base), mais de sa capacité à transformer le contexte et les outils en un état de travail efficace : suivre ce que vous faites, structurer des résultats intermédiaires, décider quand réinjecter des prompts, maintenir une mémoire persistante des tâches précédentes. OpenClaw a élevé la conception d’agents à un niveau disciplinaire à part entière.

Lorsque l’ingénierie des prompts est apparue, beaucoup doutaient que « simplement » utiliser des prompts puisse devenir une interface sérieuse. Cela semblait un hack. Mais c’est la conception originelle du Transformer, sans réentraînement, qui évolue avec le progrès du modèle. Plus le modèle devient puissant, plus les prompts aussi le deviennent. L’interface « rudimentaire mais native » l’emporte souvent, car elle s’intègre directement au système sous-jacent, plutôt que de lutter contre lui. Jusqu’à présent, la trajectoire des LLM suit cette logique.

Modèle d’espace d’état : la version stéroïde du contexte

Lorsque le flux principal passe de l’appel direct à un LLM à une boucle d’agents intelligents, la pression sur le contexte augmente. Historiquement, il était rare que la fenêtre de contexte soit entièrement saturée. Cela se produisait surtout lorsque l’on demandait à un LLM d’accomplir une longue série de tâches disjointes, où la couche applicative pouvait simplement couper et compresser l’historique. Mais pour un agent, une seule tâche peut occuper une grande partie de la capacité du contexte total. Chaque étape de la boucle de l’agent dépend du contexte transmis par l’itération précédente. Et après 20 à 100 étapes, cela échoue souvent : le fil est rompu, la cohérence se dégrade, la convergence échoue.

C’est pourquoi, aujourd’hui, de nombreux grands laboratoires investissent massivement dans le développement de modèles à fenêtre de contexte ultra-longue. C’est une voie naturelle, basée sur des méthodes efficaces (apprentissage par contexte) et en phase avec la tendance sectorielle vers la raison computationnelle. La structure la plus courante consiste à insérer des couches de mémoire fixes entre les têtes d’attention classiques, formant ce qu’on appelle un modèle d’espace d’état (SSM) ou ses variantes à attention linéaire (désignés ci-après par SSM). En contexte long, ces modèles offrent une courbe de scalabilité bien meilleure.

Légende : Comparaison de la scalabilité entre SSM et attention classique

L’objectif est d’augmenter d’un ou deux ordres de grandeur le nombre de pas cohérents qu’un agent peut exécuter — passant d’environ 20 à 20 000 — sans perdre les compétences et connaissances acquises par un Transformer traditionnel. Si cela réussit, ce sera une avancée majeure pour les agents à long terme. On peut même voir cette approche comme une forme d’apprentissage continu : sans mise à jour des poids, mais avec une mémoire externe presque inaltérable.

Ainsi, ces méthodes non paramétriques sont réelles et puissantes. Toute évaluation de l’apprentissage continu doit commencer ici. La question n’est pas si le système de contexte actuel est utile — il l’est. La vraie question est : avons-nous déjà atteint un plafond, ou de nouvelles méthodes peuvent-elles nous faire aller plus loin ?

Ce qui manque au contexte : « l’erreur du classeur »

« Ce qui se passe avec l’AGI et le pré-entraînement, c’est qu’ils ont en quelque sorte dépassé… L’humain n’est pas une AGI. Oui, l’humain possède une base de compétences, mais il manque énormément de connaissances. Nous dépendons de l’apprentissage continu. Si je crée un adolescent super intelligent, il ne sait rien. Un bon élève, avide d’apprendre. Tu peux lui dire, deviens programmeur, deviens médecin. Le déploiement implique un processus d’apprentissage, d’essais et erreurs. Ce n’est pas simplement sortir un produit fini. — Ilya Sutskever »

Imaginez un système avec un espace de stockage infini. Le plus grand classeur du monde, où chaque fait est parfaitement indexé, instantanément accessible. Il peut tout retrouver. A-t-il appris ?

Non. Il n’a jamais été forcé à faire de compression.

C’est le cœur de notre argumentation, qui reprend une idée d’Ilya Sutskever : les LLM sont essentiellement des algorithmes de compression. Lors de l’entraînement, ils compressent Internet dans des paramètres. La compression est une perte, et c’est précisément cette perte qui leur confère leur puissance. La compression oblige le modèle à rechercher des structures, à généraliser, à construire des représentations transférables entre contextes. Un modèle qui se contente de mémoriser tous les exemples d’entraînement est moins puissant qu’un modèle qui extrait des lois fondamentales. La compression avec perte, c’est l’apprentissage lui-même.

Ironiquement, la mécanique qui rend les LLM si puissants lors de l’entraînement — la compression des données brutes en représentations compactes et transférables — est précisément ce que nous refusons de leur faire faire après déploiement. Nous arrêtons la compression au moment de la sortie, en utilisant la mémoire externe. Bien que la plupart des agents compressent leur contexte via des modules spécialisés, la leçon amère (bitter lesson) est que le modèle lui-même devrait apprendre à faire cette compression, de façon directe et à grande échelle.

Yu Sun illustre cette discussion avec un exemple : les mathématiques. Regardez la preuve du théorème de Fermat. Plus de 350 ans sans preuve, non pas faute de bonnes références, mais parce que la solution était hautement innovante. La distance conceptuelle entre les connaissances mathématiques existantes et la réponse finale était trop grande. Quand Andrew Wiles l’a enfin prouvée dans les années 1990, il a travaillé sept ans presque isolé, inventant de nouvelles techniques pour y parvenir. Sa preuve a reposé sur la connexion entre deux branches mathématiques : les courbes elliptiques et les formes modulaires. Bien que Ken Ribet ait montré qu’établir cette connexion aurait permis de résoudre automatiquement le théorème de Fermat, personne avant Wiles ne disposait des outils théoriques pour construire ce pont. La preuve de Perelman du conjecture de Poincaré peut faire une démonstration similaire.

La question centrale est : ces exemples prouvent-ils que les LLM manquent d’une capacité essentielle, une capacité à faire des mises à jour a priori, à penser de façon créative ? Ou, au contraire, montrent-ils que tout le savoir humain n’est qu’un jeu de données à réorganiser, et que Wiles ou Perelman ne font que montrer que les LLM peuvent faire la même chose à plus grande échelle ?

C’est une question empirique, dont la réponse n’est pas encore claire. Mais nous savons que, pour certains types de problèmes, l’apprentissage par contexte échoue, alors que l’apprentissage par paramètres pourrait être utile. Par exemple :

Légende : Catégories de problèmes où l’apprentissage par contexte échoue et où l’apprentissage par paramètres pourrait l’emporter

Plus important encore, l’apprentissage par contexte ne peut traiter que ce qui peut être exprimé en langage, alors que les poids peuvent encoder des concepts que les prompts ne peuvent pas transmettre. Certains schémas, dimensions ou structures profondes sont trop implicites ou trop complexes pour être intégrés dans le contexte. Par exemple, la texture visuelle différenciant un faux positif bénin d’une tumeur dans une imagerie médicale, ou les micro-variations audio définissant le rythme unique d’un locuteur. Ces schémas ne peuvent pas être décomposés en mots précis. Le langage ne peut que les approcher. Même une fenêtre de contexte très longue ne peut pas transmettre ces connaissances ; elles vivent dans les poids, dans l’espace latent des représentations. Certaines connaissances ne peuvent être décrites en texte, mais seulement portées par les paramètres.

Cela pourrait expliquer pourquoi la fonction explicite de « mémoire » (par exemple, la mémoire de ChatGPT) est souvent mal perçue par les utilisateurs, plutôt que comme une fonctionnalité impressionnante. Ce que l’utilisateur veut vraiment, ce n’est pas une « mémoire », mais une « capacité » : un modèle internalisé de votre comportement, capable de généraliser à de nouveaux contextes ; un modèle qui ne se contente pas de rappeler votre historique, mais qui a compris votre façon de penser, pour anticiper vos besoins. La différence entre « c’est ce que vous avez écrit la dernière fois » (reproduction mot à mot) et « je comprends suffisamment votre façon de penser pour prévoir ce dont vous avez besoin » réside dans la distinction entre recherche et apprentissage.

Introduction à l’apprentissage continu

L’apprentissage continu peut emprunter plusieurs voies. La frontière n’est pas « y a-t-il une mémoire » mais « où se produit la compression » ? Ces voies couvrent un spectre, allant du sans compression (recherche pure, poids figés) à la compression totale (mise à jour des poids, modèle plus intelligent), avec une zone intermédiaire (modules).

Légende : Trois voies de l’apprentissage continu — contexte, modules, poids

Contexte

Dans cette dimension, les équipes construisent des pipelines de recherche plus intelligents, des agents externes et une orchestration de prompts. C’est la voie la plus mature : l’infrastructure est éprouvée, le déploiement clair. La limite est la longueur du contexte.

Une nouvelle direction notable : l’architecture multi-agent comme stratégie de scalabilité du contexte. Si un seul modèle est limité à 128K tokens, un groupe coordonné d’agents — chacun avec son propre contexte, concentré sur une partie du problème, communiquant entre eux — peut approcher une mémoire de travail quasi infinie. Chaque agent apprend dans sa fenêtre ; le système fait l’agrégation. Les projets autoresearch de Karpathy ou la construction d’un navigateur web par Cursor en sont des exemples précoces. C’est une méthode purement non paramétrique (sans modification des poids), mais elle élève considérablement le plafond de ce que peut faire un système basé sur le contexte.

Modules

Dans l’espace des modules, les équipes construisent des composants de connaissance plug-and-play (cache KV compressé, couches d’adaptation, mémoire externe), permettant à un modèle généraliste de se spécialiser sans réentraînement. Un modèle de 8 milliards de paramètres, associé à des modules appropriés, peut atteindre la performance d’un modèle de 109 milliards sur une tâche spécifique, avec une empreinte mémoire bien moindre. L’intérêt : la compatibilité avec l’infrastructure Transformer existante.

Poids

Dans la dimension mise à jour des poids, les chercheurs poursuivent la véritable mise à jour paramétrique : mise à jour partielle et sparse des poids, boucle RL pour optimiser à partir du feedback, entraînement en test (test-time training) où le contexte est compressé dans les poids. Ce sont les méthodes les plus profondes, mais aussi les plus difficiles à déployer, car elles permettent une internalisation complète de nouvelles connaissances ou compétences.

Les mécanismes de mise à jour des poids sont variés. En voici quelques axes de recherche :

Légende : Aperçu des directions de recherche en mise à jour des poids

Les axes de recherche sur les poids couvrent plusieurs trajectoires parallèles. La régularisation et les méthodes d’espace de poids sont les plus anciennes : EWC (Kirkpatrick et al., 2017) punit la modification des paramètres en fonction de leur importance pour les tâches précédentes ; l’interpolation de poids (Kozal et al., 2024) mélange de nouvelles et anciennes configurations, mais ces méthodes restent fragiles à grande échelle. La formation lors du test, initiée par Sun et al. (2020), a évolué vers des primitives d’architecture (TTT layers, TTT-E2E, TTT-Discover), qui consistent à faire descendre un gradient sur les données de test pour intégrer de nouvelles informations au moment précis où cela est nécessaire. La méta-apprentissage pose la question : peut-on entraîner un modèle à apprendre « comment apprendre » ? De MAML (Finn et al., 2017) à Nested Learning (Behrouz et al., 2025), cette approche structure le modèle comme un problème d’optimisation hiérarchique, avec des modules qui s’adaptent rapidement à court terme et se mettent à jour lentement à long terme, s’inspirant de la consolidation de la mémoire biologique.

La distillation consiste à faire en sorte qu’un modèle étudiant imite un point de contrôle enseignant gelé, pour préserver les connaissances acquises. LoRD (Liu et al., 2025) combine la compression du modèle et la rétention d’un buffer de replay, rendant la distillation efficace pour une mise à jour continue. L’auto-distillation (SDFT, Shenfeld et al., 2026) inverse la source : le modèle utilise ses propres sorties sous conditions expertes comme signal d’entraînement, évitant la catastrophe de l’oubli catastrophique lors du fine-tuning. La boucle d’auto-amélioration récursive, comme STaR (Zelikman et al., 2022), s’appuie sur des chaînes de raisonnement auto-générées ; AlphaEvolve (DeepMind, 2025) a découvert des algorithmes optimisés depuis des décennies sans amélioration ; Silver et Sutton, dans « l’ère de l’expérience » (2025), définissent l’apprentissage de l’agent comme un flux d’expériences continu et ininterrompu.

Ces axes convergent. TTT-Discover intègre la formation lors du test et l’exploration RL. HOPE imbrique cycles d’apprentissage rapides et lents dans une architecture unique. SDFT transforme la distillation en opération d’auto-amélioration fondamentale. Les frontières entre ces stratégies s’estompent. La prochaine génération de systèmes d’apprentissage continu combinera probablement plusieurs approches : régularisation pour la stabilité, méta-apprentissage pour l’accélération, auto-amélioration pour la croissance exponentielle. De plus en plus de startups misent sur ces couches technologiques.

L’écosystème entrepreneurial de l’apprentissage continu

L’extrémité non paramétrique, la plus connue, voit émerger des sociétés comme Letta, mem0, Subconscious, qui orchestrent et gèrent la mise en contexte. Les infrastructures de stockage externe et RAG (ex : Pinecone, xmemory) fournissent la recherche. La donnée existe, mais le défi est de mettre la bonne tranche au bon moment devant le modèle. Avec l’extension des fenêtres de contexte, de nouvelles startups apparaissent pour gérer la complexité croissante des stratégies contextuelles.

Côté paramétrique, plus ancien et plus diversifié, des entreprises tentent une forme de « compression post-déploiement » : faire internaliser de nouvelles connaissances dans les poids. Les stratégies varient : compression partielle (modules), apprentissage par boucle de rétroaction (feedback), ou entraînement en test (test-time training). Ces méthodes, difficiles à déployer, permettent une internalisation partielle ou totale de nouvelles compétences.

Compression partielle : apprendre sans réentraînement. Certaines équipes construisent des modules de connaissance plug-and-play (cache KV compressé, couches d’adaptation, mémoire externe), permettant à un modèle généraliste de se spécialiser sans toucher aux poids centraux. La promesse : une compression significative (au-delà de la simple recherche), tout en maintenant un équilibre stabilité-flexibilité. La modularité permet une intégration facile dans l’infrastructure existante, avec un coût d’expérimentation réduit.

Apprentissage par signal : apprendre à partir de rétroactions. D’autres misent sur le fait que les signaux riches existent déjà dans la boucle de déploiement — corrections utilisateur, succès ou échecs, récompenses du monde réel. Le modèle doit voir chaque interaction comme un signal d’entraînement potentiel, pas seulement une requête de raisonnement. Cela ressemble à la façon dont l’humain progresse dans le travail : faire, recevoir du feedback, internaliser ce qui fonctionne. Le défi est de transformer ces signaux rares, bruyants, parfois adverses, en mises à jour stables des poids, sans catastrophe de l’oubli. Un vrai modèle qui apprend en déployant peut produire des effets de levier que la gestion du contexte ne peut pas atteindre.

Apprentissage basé sur les données : apprendre à partir de signaux de qualité. Une autre voie consiste à se concentrer sur la sélection, la génération ou la synthèse de données pertinentes pour alimenter la mise à jour continue. L’idée : un modèle doté d’un bon signal d’apprentissage, avec peu de gradients, peut s’améliorer significativement. Cela s’intègre naturellement avec les stratégies de boucle de rétroaction, mais met l’accent sur la qualité des données, plutôt que sur la méthode d’apprentissage elle-même.

Nouvelles architectures : apprendre à partir de la conception fondamentale. La voie la plus radicale suppose que l’architecture Transformer est un goulot d’étranglement. La vraie continuité dans l’apprentissage nécessite des primitives computationnelles radicalement différentes, intégrant la dynamique continue et la mémoire intrinsèque. La conception structurelle doit permettre à l’apprentissage de s’insérer dans la base même du système.

Légende : Carte des startups en apprentissage continu

Tous ces axes sont activement explorés par les grands laboratoires. Certains cherchent à améliorer la gestion du contexte et la chaîne de raisonnement, d’autres expérimentent avec la mémoire externe ou des pipelines de calcul en sommeil, d’autres encore poursuivent de nouvelles architectures. Le domaine est encore à ses débuts, aucune méthode n’a encore dominé, et compte tenu de la diversité des cas d’usage, il n’y aura probablement pas une seule solution gagnante.

Pourquoi la mise à jour naïve des poids échoue

En production, la mise à jour des paramètres du modèle entraîne une série de défaillances encore non résolues à grande échelle.

Légende : Modes d’échec de la mise à jour naïve des poids

Les problèmes d’ingénierie sont bien documentés. La catastrophe de l’oubli catastrophique signifie que tout modèle suffisamment sensible à de nouvelles données pour apprendre détruit ses représentations existantes — le dilemme stabilité-flexibilité. La déconnexion temporelle indique que règles fixes et états variables sont compressés dans les mêmes poids, et une mise à jour en détruit une autre. La défaillance de l’intégration logique réside dans le fait que la mise à jour factuelle ne se propage pas à ses inférences : les changements restent au niveau de la séquence de tokens, pas au niveau sémantique. L’oubli (unlearning) reste impossible : il n’existe pas d’opération de soustraction différentiable, donc il n’y a pas de méthode précise pour supprimer des connaissances toxiques ou fausses.

Une autre catégorie de problèmes, moins souvent abordée, concerne la séparation entre entraînement et déploiement. Elle n’est pas seulement pratique : elle est aussi une frontière de sécurité, d’audit et de gouvernance. La rupture de cette frontière pose plusieurs risques : le dérapage de l’alignement sécuritaire — même un fine-tuning sur des données bénignes peut produire des comportements déviants ; la vulnérabilité à la contamination des données — une injection de prompt malveillant dans la mémoire du modèle ; la difficulté à faire du versioning ou des tests de régression, car un modèle en constante mise à jour est une cible mouvante ; enfin, la fuite de données sensibles, car la mémoire interne peut contenir des informations confidentielles, plus difficile à filtrer que dans le contexte de recherche.

Ce sont des questions ouvertes, pas des impossibilités fondamentales. Leur résolution, comme celle des défis architecturaux, fait partie du programme de recherche en apprentissage continu.

De « Memento » à une mémoire véritable

La tragédie de Leonard dans « Memento » ne réside pas dans son incapacité à fonctionner — il est ingénieux, même brillant dans chaque situation. Son drame, c’est qu’il ne peut jamais faire de croissance exponentielle. Chaque expérience reste externe : une photo Polaroid, un tatouage, une note manuscrite. Il peut rechercher, mais il ne peut pas compresser le nouveau savoir.

En parcourant ce labyrinthe auto-construit, la frontière entre réalité et croyance devient floue. Sa maladie ne lui vole pas seulement la mémoire ; elle l’oblige à reconstruire sans cesse du sens, faisant de lui à la fois le détective de sa propre histoire et un narrateur peu fiable.

Aujourd’hui, l’IA fonctionne sous des contraintes similaires. Nous avons construit des systèmes de recherche très puissants : fenêtres de contexte longues, agents plus intelligents, coordination multi-agent. Mais la recherche ne suffit pas. Un système capable de rechercher n’est pas obligé d’apprendre. Il n’est pas contraint de généraliser. La mécanique qui rend l’entraînement si puissant — transformer des données brutes en représentations transférables — est précisément ce que nous arrêtons au moment du déploiement, en utilisant la mémoire externe. Nous arrêtons la compression, et la remplaçons par la mémoire externe. Bien que la plupart des agents compressent leur contexte via des modules spécialisés, la leçon amère (bitter lesson) est que le modèle lui-même devrait apprendre à faire cette compression, de façon directe et à grande échelle.

Yu Sun illustre cette idée avec un exemple : les mathématiques. Regardez la preuve du théorème de Fermat. Plus de 350 ans sans preuve, non pas faute de références, mais parce que la solution était hautement innovante. La distance conceptuelle entre les connaissances existantes et la réponse était trop grande. Quand Wiles l’a enfin prouvée dans les années 1990, il a travaillé sept ans presque isolé, inventant de nouvelles techniques pour y parvenir. Sa preuve a reposé sur la connexion entre deux branches mathématiques : les courbes elliptiques et les formes modulaires. Bien que Ribet ait montré qu’établir cette connexion aurait permis de résoudre automatiquement le théorème de Fermat, personne avant Wiles ne disposait des outils pour construire ce pont. La preuve de Perelman du conjecture de Poincaré peut faire une démonstration similaire.

La question centrale est : ces exemples montrent-ils que les LLM manquent d’une capacité essentielle, une capacité à faire des mises à jour a priori, à penser de façon créative ? Ou, au contraire, montrent-ils que tout le savoir humain n’est qu’un jeu de données à réorganiser, et que Wiles ou Perelman ne font que montrer que les LLM peuvent faire la même chose à plus grande échelle ?

C’est une question empirique, dont la réponse n’est pas encore claire. Mais nous savons que, pour certains types de problèmes, l’apprentissage par contexte échoue, alors que l’apprentissage par paramètres pourrait être utile. Par exemple :

Légende : Catégories de problèmes où l’apprentissage par contexte échoue et où l’apprentissage par paramètres pourrait l’emporter

Plus important encore, l’apprentissage par contexte ne peut traiter que ce qui peut être exprimé en langage, alors que les poids peuvent encoder des concepts que les prompts ne peuvent pas transmettre. Certains schémas, dimensions ou structures profondes sont trop implicites ou trop complexes pour être intégrés dans le contexte. Par exemple, la texture visuelle différenciant un faux positif bénin d’une tumeur dans une imagerie médicale, ou les micro-variations audio définissant le rythme unique d’un locuteur. Ces schémas ne peuvent pas être décomposés en mots précis. Le langage ne peut que les approcher. Même une fenêtre de contexte très longue ne peut pas transmettre ces connaissances ; elles vivent dans les poids, dans l’espace latent des représentations. Certaines connaissances ne peuvent être décrites en texte, mais seulement portées par les paramètres.

Cela pourrait expliquer pourquoi la fonction explicite de « mémoire » (par exemple, la mémoire de ChatGPT) est souvent mal perçue par les utilisateurs, plutôt que comme une fonctionnalité impressionnante. Ce que l’utilisateur veut vraiment, ce n’est pas une « mémoire », mais une « capacité » : un modèle internalisé de votre comportement, capable de généraliser à de nouveaux contextes ; un modèle qui ne se contente pas de rappeler votre historique, mais qui a compris votre façon de penser, pour anticiper vos besoins. La différence entre « c’est ce que vous avez écrit la dernière fois » (reproduction mot à mot) et « je comprends suffisamment votre façon de penser pour prévoir ce dont vous avez besoin » réside dans la distinction entre recherche et apprentissage.

Introduction à l’apprentissage continu

L’apprentissage continu peut emprunter plusieurs voies. La frontière n’est pas « y a-t-il une mémoire » mais « où se produit la compression » ? Ces voies couvrent un spectre, allant du sans compression (recherche pure, poids figés) à la compression totale (mise à jour des poids, modèle plus intelligent), avec une zone intermédiaire (modules).

Légende : Trois voies de l’apprentissage continu — contexte, modules, poids

Contexte

Dans cette dimension, les équipes construisent des pipelines de recherche plus intelligents, des agents externes et une orchestration de prompts. C’est la voie la plus mature : l’infrastructure est éprouvée, le déploiement clair. La limite est la longueur du contexte.

Une nouvelle direction notable : l’architecture multi-agent comme stratégie de scalabilité du contexte. Si un seul modèle est limité à 128K tokens, un groupe coordonné d’agents — chacun avec son propre contexte, concentré sur une partie du problème, communiquant entre eux — peut approcher une mémoire de travail quasi infinie. Chaque agent apprend dans sa fenêtre ; le système fait l’agrégation. Les projets autoresearch de Karpathy ou la construction d’un navigateur web par Cursor en sont des exemples précoces. C’est une méthode purement non paramétrique (sans modification des poids), mais elle élève considérablement le plafond de ce que peut faire un système basé sur le contexte.

Modules

Dans l’espace des modules, les équipes construisent des composants de connaissance plug-and-play (cache KV compressé, couches d’adaptation, mémoire externe), permettant à un modèle généraliste de se spécialiser sans réentraînement. Un modèle de 8 milliards de paramètres, associé à des modules appropriés, peut atteindre la performance d’un modèle de 109 milliards sur une tâche spécifique, avec une empreinte mémoire bien moindre. L’intérêt : la compatibilité avec l’infrastructure Transformer existante.

Poids

Dans la dimension mise à jour des poids, les chercheurs poursuivent la véritable mise à jour paramétrique : mise à jour partielle et sparse des poids, boucle RL pour optimiser à partir du feedback, entraînement en test (test-time training) où le contexte est compressé dans les poids. Ce sont les méthodes les plus profondes, mais aussi les plus difficiles à déployer, car elles permettent une internalisation complète de nouvelles connaissances ou compétences.

Les mécanismes de mise à jour des poids sont variés. En voici quelques axes de recherche :

Légende : Aperçu des directions de recherche en mise à jour des poids

Les axes de recherche sur les poids couvrent plusieurs trajectoires parallèles. La régularisation et les méthodes d’espace de poids sont les plus anciennes : EWC (Kirkpatrick et al., 2017) punit la modification des paramètres en fonction de leur importance pour les tâches précédentes ; l’interpolation de poids (Kozal et al., 2024) mélange de nouvelles et anciennes configurations, mais ces méthodes restent fragiles à grande échelle. La formation lors du test, initiée par Sun et al. (2020), a évolué vers des primitives d’architecture (couches TTT, TTT-E2E, TTT-Discover), qui consistent à faire descendre un gradient sur les données de test pour intégrer de nouvelles informations au moment précis où cela est nécessaire. La méta-apprentissage pose la question : peut-on entraîner un modèle à apprendre « comment apprendre » ? De MAML (Finn et al., 2017) à Nested Learning (Behrouz et al., 2025), cette approche structure le modèle comme un problème d’optimisation hiérarchique, avec des modules qui s’adaptent rapidement à court terme et se mettent à jour lentement à long terme, s’inspirant de la consolidation de la mémoire biologique.

La distillation consiste à faire en sorte qu’un modèle étudiant imite un point de contrôle enseignant gelé, pour préserver les connaissances acquises. LoRD (Liu et al., 2025) combine la compression du modèle et la rétention d’un buffer de replay, rendant la distillation efficace pour une mise à jour continue. L’auto-distillation (SDFT, Shenfeld et al., 2026) inverse la source : le modèle utilise ses propres sorties sous conditions expertes comme signal d’entraînement, évitant la catastrophe de l’oubli catastrophique lors du fine-tuning. La boucle d’auto-amélioration récursive, comme STaR (Zelikman et al., 2022), s’appuie sur des chaînes de raisonnement auto-générées ; AlphaEvolve (DeepMind, 2025) a découvert des algorithmes optimisés depuis des décennies sans amélioration ; Silver et Sutton, dans « l’ère de l’expérience » (2025), définissent l’apprentissage de l’agent comme un flux d’expériences continu et ininterrompu.

Ces axes convergent. TTT-Discover intègre la formation lors du test et l’exploration RL. HOPE imbrique cycles d’apprentissage rapides et lents dans une architecture unique. SDFT transforme la distillation en opération d’auto-amélioration fondamentale. Les frontières entre ces stratégies s’estompent. La prochaine génération de systèmes d’apprentissage continu combinera probablement plusieurs approches : régularisation pour la stabilité, méta-apprentissage pour l’accélération, auto-amélioration pour la croissance exponentielle. De plus en plus de startups misent sur ces couches technologiques.

L’écosystème entrepreneurial de l’apprentissage continu

L’extrémité non paramétrique, la plus connue, voit émerger des sociétés comme Letta, mem0, Subconscious, qui orchestrent et gèrent la mise en contexte. Les infrastructures de stockage externe et RAG (ex : Pinecone, xmemory) fournissent la recherche. La donnée existe, mais le défi est de mettre la bonne tranche au bon moment devant le modèle. Avec l’extension des fenêtres de contexte, de nouvelles startups apparaissent pour gérer la complexité croissante des stratégies contextuelles.

Côté paramétrique, plus ancien et plus diversifié, des entreprises tentent une forme de « compression post-déploiement » : faire internaliser de nouvelles connaissances dans les poids. Les stratégies varient : compression partielle (modules), apprentissage par boucle de rétroaction (feedback), ou entraînement en test (test-time training). Ces méthodes, difficiles à déployer, permettent une internalisation partielle ou totale de nouvelles compétences.

Compression partielle : apprendre sans réentraînement. Certaines équipes construisent des modules de connaissance plug-and-play (cache KV compressé, couches d’adaptation, mémoire externe), permettant à un modèle généraliste de se spécialiser sans toucher aux poids centraux. La promesse : une compression significative (au-delà de la simple recherche), tout en maintenant un équilibre stabilité-flexibilité. La modularité permet une intégration facile dans l’infrastructure existante, avec un coût d’expérimentation réduit.

Apprentissage par signal : apprendre à partir de rétroactions. D’autres misent sur le fait que les signaux riches existent déjà dans la boucle de déploiement — corrections utilisateur, succès ou échecs, récompenses du monde réel. Le modèle doit voir chaque interaction comme un signal d’entraînement potentiel, pas seulement une requête de raisonnement. Cela ressemble à la façon dont l’humain progresse dans le travail : faire, recevoir du feedback, internaliser ce qui fonctionne. Le défi est de transformer ces signaux rares, bruyants, parfois adverses, en mises à jour stables des poids, sans catastrophe de l’oubli. Un vrai modèle qui apprend en déployant peut produire des effets de levier que la gestion du contexte ne peut pas atteindre.

Apprentissage basé sur les données : apprendre à partir de signaux de qualité. Une autre voie consiste à se concentrer sur la sélection, la génération ou la synthèse de données pertinentes pour alimenter la mise à jour continue. L’idée : un modèle doté d’un bon signal d’apprentissage, avec peu de gradients, peut s’améliorer significativement. Cela s’intègre naturellement avec les stratégies de boucle de rétroaction, mais met l’accent sur la qualité des données, plutôt que sur la méthode d’apprentissage elle-même.

Nouvelles architectures : apprendre à partir de la conception fondamentale. La voie la plus radicale suppose que l’architecture Transformer est un goulot d’étranglement. La vraie continuité dans l’apprentissage nécessite des primitives computationnelles radicalement différentes, intégrant la dynamique continue et la mémoire intrinsèque. La conception structurelle doit permettre à l’apprentissage de s’insérer dans la base même du système.

Légende : Carte des startups en apprentissage continu

Tous ces axes sont activement explorés par les grands laboratoires. Certains cherchent à améliorer la gestion du contexte et la chaîne de raisonnement, d’autres expérimentent avec la mémoire externe ou des pipelines de calcul en sommeil, d’autres encore poursuivent de nouvelles architectures. Le domaine est encore à ses débuts, aucune méthode n’a encore dominé, et compte tenu de la diversité des cas d’usage, il n’y aura probablement pas une seule solution gagnante.

Pourquoi la mise à jour naïve des

a16z : Le déploiement de grands modèles équivaut à une perte de mémoire, le « apprentissage continu » peut-il briser ce cercle vicieux ?

Sujets populaires

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Épingler