a16z：Развертывание больших моделей — это потеря памяти, сможет ли «непрерывное обучение» разорвать этот порочный круг?

Question

Автор: Малика Аубакирова, Мэтт Борнштейн

Компиляция: Deep潮 TechFlow

Обзор Deep潮: После обучения большие языковые модели «замораживаются», и для их функционирования после развертывания приходится полагаться на внешние патчи, такие как окна контекста, RAG и другие. По сути, они похожи на пациентов с амнезией из «Мементо» — могут извлекать информацию, но не способны по-настоящему учиться новому. Два партнера из a16z систематизировали передовое направление исследований «непрерывного обучения», разбирая три пути — через контекст, модули и обновление весов — и анализируя технологический тренд, который может переопределить границы возможностей ИИ.

В фильме Кристофера Нолана «Мементо» главный герой Леонард Шелби живет в разрушенном настоящем. Травма мозга вызывает у него амнезию по типу антероградной, он не может формировать новые воспоминания. Каждые несколько минут его мир сбрасывается заново, он застрял в вечном «сейчас», не помнит, что произошло недавно, и не знает, что будет дальше. Чтобы выжить, он татуирует слова на теле, использует мгновенные фотокарточки — внешние инструменты, заменяющие память, которую не может выполнить его мозг.

Большие языковые модели тоже живут в подобном вечном «сейчас». После обучения огромные знания зафиксированы в параметрах, модель не может формировать новые воспоминания или обновлять свои параметры на основе свежего опыта. Чтобы компенсировать этот недостаток, мы создаем для них каркасы: история диалогов служит краткосрочной заметкой, системы поиска — внешней тетрадью, подсказки — как татуировки. Но сама модель никогда по-настоящему не усваивает эти новые сведения.

Все больше исследователей считают, что этого недостаточно. Контекстное обучение (ICL) решает проблему только в случае, если ответ (или его части) уже есть где-то в мире. Но для задач, требующих настоящего открытия (например, новых математических доказательств), в противостоящих сценариях (например, безопасность и защита), или для знаний, слишком скрытых или трудновыразимых словами, есть веские основания полагать: модель нуждается в способе, который после развертывания позволяет прямо записывать новые знания и опыт в параметры.

Контекстное обучение — временное решение. Настоящее обучение требует компрессии. Пока мы не позволим модели постоянно сжимать информацию, она, скорее всего, застрянет в вечном «сейчас» из «Мементо». И наоборот, если мы научим модель самостоятельно строить свою архитектуру памяти, а не полагаться на внешние инструменты, это откроет совершенно новые горизонты масштабирования.

Эта область исследований называется «непрерывное обучение» (continual learning). Концепция не нова (см. работу McCloskey и Cohen 1989 года), но мы считаем, что она — один из важнейших направлений в современном ИИ. Взрывной рост возможностей моделей за последние годы усилил разрыв между «знанием» и «способностью знать». Цель этой статьи — поделиться знаниями, полученными от ведущих исследователей, помочь понять разные пути развития непрерывного обучения и стимулировать его развитие в предпринимательской среде.

Примечание: создание этой статьи стало возможным благодаря глубокому обмену мнениями с группой выдающихся ученых, аспирантов и предпринимателей, которые щедро делились своими работами и взглядами в области непрерывного обучения. Их идеи и практический опыт сделали эту работу гораздо более прочной, чем если бы мы писали ее в одиночку. Благодарим за ваше время и идеи!

Обсуждение контекста

Перед тем как защищать идею обучения с обновлением параметров (то есть обновлением весов модели), важно признать один факт: контекстное обучение действительно работает. И есть сильные аргументы в пользу того, что оно продолжит развиваться.

Суть трансформеров — в условном предсказании следующего токена по последовательности. Если дать им правильную последовательность, можно получить удивительно богатое поведение без изменения весов. Именно поэтому методы вроде управления контекстом, подсказок, тонкой настройки по инструкциям и обучению на малом числе примеров так эффективны. Интеллект скрыт в статичных параметрах, а проявляемые способности — в содержимом окна.

Недавняя статья Cursor о масштабировании автономных программных агентов — хороший пример: веса модели фиксированы, а система работает за счет тщательного управления контекстом — что вставлять, когда делать резюме, как поддерживать связность в автономных режимах на часы.

Еще один пример — OpenClaw. Он стал популярным не благодаря особым правам модели (их могут использовать все), а потому что он превращает контекст и инструменты в эффективную рабочую среду: отслеживает действия, структурирует промежуточные результаты, решает, когда повторно вставлять подсказки, сохраняет память о предыдущих задачах. OpenClaw поднял «оболочку» интеллектуальных агентов на уровень отдельной науки.

Когда впервые появились подсказки, многие исследователи сомневались, что «только подсказки» могут стать полноценным интерфейсом. Казалось, это хак. Но это — исходный механизм трансформеров, не требующий повторного обучения и автоматически улучшающийся с развитием моделей. Чем сильнее модель, тем лучше подсказки. «Простая, но нативная» интерфейсность часто выигрывает, потому что она напрямую связана с системой, а не против нее. И так развивается путь развития LLM.

Модель пространств состояний: стероиды контекста

Когда рабочие процессы переходят от вызова обычных LLM к циклам агентов, нагрузка на модели с контекстным обучением растет. Раньше окна заполнялись нечасто. Обычно это происходило, когда LLM требовалось выполнить длинную цепочку дискретных задач, и слой приложения мог просто обрезать и сжать историю диалогов. Но для агентов одна задача может съедать значительную часть доступного контекста. Каждый шаг цикла зависит от предыдущих, и после 20–100 итераций происходит сбой: «обрыв связи» — контекст заполняется, связность падает, система не сходится.

Поэтому ведущие лаборатории сейчас вкладывают ресурсы в разработку моделей с сверхдлинным контекстом. Это естественный путь, основанный на уже эффективных методах (контекстное обучение) и тренде на вычислительные переходы при рассуждениях. Самая популярная архитектура — вставка фиксированной памяти между обычными слоями внимания, то есть модели типа SSM (state space models) и линейных внимания. SSM обеспечивают значительно лучшую масштабируемость в сценариях с длинным контекстом.

Рисунок: сравнение масштабируемости SSM и классического внимания

Цель — повысить число шагов, которые агент может выполнять последовательно, с примерно 20 до 20 000, не теряя навыков и знаний, заложенных в классическом трансформере. Если удастся — это прорыв для долгосрочных агентов. Можно рассматривать такой подход как форму непрерывного обучения: параметры не меняются, а добавляется почти неограниченная внешняя память.

Таким образом, эти не параметрические методы — реальны и мощны. Любая оценка систем с непрерывным обучением должна начинаться с них. Вопрос не в том, работают ли сегодня контекстные системы — они работают. Вопрос в том, достигли ли мы потолка, и смогут ли новые методы вывести нас дальше.

Что пропущено в контексте: «архивная ошибка»

«AGI и предобучение — в некотором смысле, они переоценили… Человечество — не AGI. Да, у человека есть базовые навыки, но у него отсутствует огромное количество знаний. Мы полагаемся на непрерывное обучение. Если я создам очень умного 15-летнего подростка, он ничего не знает. Хороший ученик, очень хочет учиться. Можно сказать, что он станет программистом, врачом. Само развертывание предполагает некоторый процесс обучения и проб и ошибок. Это — процесс, а не выпуск готового продукта. — Ilya Sutskever»

Представьте систему с бесконечным хранилищем. Самое большое архивное хранилище в мире, где каждый факт идеально индексирован и мгновенно доступен. Она может найти любую информацию. Она научилась? Нет.

Потому что она никогда не была вынуждена делать компрессию.

Это — ключевой аргумент. Он основан на мысли, высказанной Ильей Сутскевером: LLM по сути — алгоритмы сжатия. Во время обучения они сжимают интернет в параметры. Сжатие — с потерями, и именно эта потеря делает их мощными. Сжатие заставляет модель искать структуру, обобщать, строить представления, которые можно переносить через контексты. Модель, заучивающая все обучающие образцы, хуже, чем модель, извлекающая базовые закономерности. С потерями сжатие — это и есть обучение.

Ирония в том, что механизм, делающий LLM во время обучения настолько мощным (сжатие исходных данных в переносимые представления), — именно то, что мы прекращаем делать после развертывания. Мы останавливаем сжатие, заменяя его внешней памятью. Конечно, большинство оболочек агентов используют кастомизированное сжатие контекста, но горький урок (bitter lesson) в том, что модель сама должна научиться такому сжатию — прямо и масштабно.

Ю Сун поделился примером, иллюстрирующим этот спор: математика. Посмотрите на теорему Ферма. Более 350 лет ни один математик не смог ее доказать — не потому, что у них не было правильных источников, а потому что решение было очень новым. Концептуальная дистанция между существующими знаниями и финальным ответом слишком велика. Когда Эндрю Уайлс в 1990-х годах наконец решил задачу, он работал почти семь лет в изоляции, придумывая новые методы для достижения результата. Его доказательство опиралось на успешное соединение двух разных областей математики: эллиптических кривых и модульных форм. Хотя Кен Рибет ранее показал, что, если установить это соединение, теорема Ферма решается автоматически, до Уайлса никто не обладал теоретическими инструментами для построения этого моста. Аналогично доказательство Перельмана гипотезы Пуанкаре — пример, подтверждающий, что такие сложные связи требуют новых подходов.

Главный вопрос: доказывают ли эти примеры, что LLM лишены чего-то — способности к обновлению, к настоящему творческому мышлению? Или, наоборот, они показывают, что все знания человека — лишь данные для обучения и перестройки, а Уайлс и Перельман — лишь демонстрация того, что LLM могут делать то же самое на большем масштабе?

Это — эмпирический вопрос, ответ на который пока не ясен. Но мы точно знаем, что есть задачи, для которых контекстное обучение сегодня терпит неудачу, а параметрическое — может быть полезным. Например:

Рисунок: категории задач, где контекстное обучение терпит неудачу, а параметры — выигрывают

Более важно: контекстное обучение работает только с тем, что можно выразить словами, а параметры могут кодировать концепции, которые невозможно передать подсказками. Некоторые паттерны слишком сложные, скрытые или глубокие, чтобы вместиться в окно. Например, визуальные текстуры в медицинских сканах, отличающие доброкачественные артефакты от опухолей, или микроволны речи, задающие уникальный ритм говорящего — эти паттерны трудно разбить на точные слова. Язык лишь приближен к ним. Даже очень длинные подсказки не передадут их полностью; такие знания живут в весах, в скрытых представлениях, а не в тексте. Они существуют в латентных пространствах обучения, а не в словах. И независимо от роста окна, есть знания, которые невозможно выразить текстом — их можно только зафиксировать в параметрах.

Это, возможно, объясняет, почему функции «запомнить вас» (например, память ChatGPT) часто вызывают у пользователей дискомфорт, а не удивление. Пользователь хочет не «воспоминания», а «способности». Модель, которая внутренне усвоила ваш стиль поведения, сможет обобщать в новых сценариях; та, что просто запоминает историю, — нет. Разница между «это то, что вы писали в прошлом письме» (буквально) и «я достаточно понял ваш стиль, чтобы предсказать, что вам нужно» — это разница между поиском и обучением.

Введение в непрерывное обучение

Непрерывное обучение — это множество путей. Граница не в том, есть ли память, а в том, где происходит компрессия. Эти пути лежат по спектру — от полного отсутствия компрессии (чистый поиск, замороженные веса) до полной внутренней компрессии (обучение весов, становление умнее), — и есть важная промежуточная зона (модули).

Рисунок: три пути непрерывного обучения — контекст, модули, веса

Контекст

На этом конце — создание более умных систем поиска, оболочек агентов и подсказок. Это самый зрелый подход: инфраструктура проверена, путь к развертыванию ясен. Ограничение — в длине окна.

Интересное новое направление — мультиагентные архитектуры как стратегия масштабирования контекста. Если один модель ограничена 128K токенами, группа согласованных агентов — каждый со своим контекстом, сосредоточенный на части задачи, — может в целом иметь почти неограниченную рабочую память. Каждый агент учится в своем окне; система объединяет результаты. Проекты Karpathy и Cursor по созданию браузеров — ранние примеры. Это чисто не параметрический подход (без изменения весов), но он значительно повышает возможности систем с расширенным контекстом.

Модули

В области модулей — создание вставляемых знаний (сжатых KV-куч, адаптеров, внешних хранилищ). Они позволяют универсальной модели достигать профессиональных результатов без повторного обучения. Например, модель 8B с подходящими модулями может показывать результаты, сравнимые с 109B моделью, при меньших затратах памяти. Преимущество — совместимость с существующими инфраструктурами трансформеров.

Обновление весов

На этом конце — стремление к истинному параметрическому обучению: обновление только релевантных частей весов, использование обратной связи для оптимизации, тестовое обучение — сжатие контекста прямо в веса во время инференса. Эти методы самые глубокие и сложные для внедрения, но позволяют полностью внутренне усваивать новые знания и навыки.

Конкретные направления обновления весов включают:

Рисунок: обзор направлений исследований по обновлению весов

Области обновления весов — параллельные линии. Регуляризация и методы в пространстве весов — самые старые: EWC (Kirkpatrick et al., 2017) штрафует важные параметры для предыдущих задач; интерполяция весов (Kozal et al., 2024) — смешивание новых и старых конфигураций. Обучение во время тестирования — новшество, введенное Sun et al. (2020), — включает градиентные шаги на тестовых данных, чтобы в нужный момент сжать новую информацию в веса. Метаобучение — вопрос: можем ли мы обучить модель «учиться как»? От MAML (Finn et al., 2017) до Nested Learning (Behrouz et al., 2025), где структура модели — иерархия оптимизации, позволяющая быстро адаптироваться и медленно обновляться, вдохновленная биологической памятью.

Дистилляция — обучение студенческой модели на зафиксированном учителе. LoRD (Liu et al., 2025) — эффективное сжатие с помощью совместного обрезания модели и буфера воспроизведения. Self-distillation (SDFT, Shenfeld et al., 2026) — использует собственные выходы модели в условиях эксперта как обучающий сигнал, обходя проблему катастрофического забывания. Рекурсивное самосовершенствование — пример: STaR (Zelikman et al., 2022) — генерация цепочек рассуждений для улучшения логики; AlphaEvolve (DeepMind, 2025) — поиск давно неулучшаемых алгоритмов; «Эпоха опыта» (Silver и Sutton, 2025) — определяет обучение агентов как непрерывный поток опыта.

Эти направления начинают сливаться. TTT-Discover объединяет тестовое обучение и исследование с помощью RL. HOPE — вложение быстрых и медленных циклов обучения в единую архитектуру. SDFT превращает дистилляцию в базовую операцию самосовершенствования. Границы между подходами стираются. Следующее поколение систем непрерывного обучения, вероятно, объединит разные стратегии: регуляризацию для стабильности, метаобучение для ускорения, самосовершенствование для эффекта сложения. Множество стартапов уже делают ставку на эти уровни технологий.

Карта стартапов в области непрерывного обучения

На не параметрическом конце — наиболее известные компании (Letta, mem0, Subconscious), создающие слои оркестровки и каркасы, управляющие содержимым окна. Внешние хранилища и инфраструктуры RAG (например, Pinecone, xmemory) — ядро поиска. Данные есть, задача — вовремя вставлять правильные куски. По мере расширения окна растет и пространство для новых стартапов, которые разрабатывают стратегии управления сложными контекстами.

На более ранней стадии — компании, работающие с обновлением весов. Они экспериментируют с «развертыванием после обучения», чтобы модель могла внутри весов зафиксировать новые знания. Можно выделить разные подходы:

Частичное сжатие: учиться без повторного обучения. Некоторые создают вставляемые модули (сжатые KV, адаптеры, внешние хранилища), позволяющие модели специализироваться без изменения основных весов. Общий аргумент — можно добиться значимого сжатия (не только поиска), сохраняя баланс стабильности и пластичности, поскольку обучение изолировано, а не разбросано по всему пространству параметров. 8B модель с подходящими модулями может показывать результаты, сравнимые с гораздо большими моделями. Преимущество — модульность: модули легко вставлять, заменять или обновлять, что значительно дешевле, чем повторное обучение.

Обучение на обратной связи и циклы: учиться на сигналах. Другие компании делают ставку на то, что самые богатые сигналы для обучения — в самом процессе развертывания: исправления пользователей, успехи и неудачи задач, реальные результаты. Идея — модель должна воспринимать каждое взаимодействие как потенциальный обучающий сигнал, а не только запрос на вывод. Это очень похоже на то, как человек учится на практике: работать, получать обратную связь, усваивать эффективные методы. Вызов — преобразовать разреженную, шумную, иногда противоречивую обратную связь в стабильное обновление весов, избегая катастрофического забывания. Модель, способная учиться из развертывания, даст эффект сложения, недоступный системам только с контекстом.

Данные как ресурс: учиться на правильных сигналах. Еще один подход — сосредоточиться на сборе, генерации или синтезе качественных данных для постоянного обновления. Предполагается, что модель с хорошими структурированными сигналами сможет улучшаться с меньшим числом градиентных шагов. Этот подход хорошо сочетается с концепцией обратной связи, но делает акцент на подготовке данных: важно, чтобы модель могла учиться, что и сколько.

Новые архитектуры: учиться с нуля. Самый радикальный подход — считать, что архитектура трансформеров — узкое место, и для непрерывного обучения нужны кардинально новые вычислительные основы: системы с динамическими временными механизмами и встроенной памятью. Идея — чтобы создать систему с непрерывным обучением, нужно встроить механизм обучения прямо в базовую архитектуру.

Рисунок: карта стартапов в области непрерывного обучения

Все ведущие лаборатории активно работают в этих направлениях. Некоторые ищут новые методы управления контекстом и цепочками рассуждений, другие — экспериментируют с внешней памятью или «спящими» вычислительными цепочками, есть компании, разрабатывающие новые архитектуры. Область еще очень молода, ни один подход не доминирует, и с учетом разнообразия задач, не стоит ждать одного победителя.

Почему простое обновление весов может провалиться

Обновление модели в производственной среде вызывает целый ряд проблем, которые пока не решены в масштабах.

Рисунок: типичные сценарии неудач при простом обновлении весов

Проблемы инженерного характера хорошо задокументированы. Катастрофическое забывание — когда модель слишком чувствительна к новым данным и разрушает уже сформированные представления — это баланс стабильности и пластичности. Временная декупляция — когда неизменные правила и изменяемое состояние объединены в одних весах, и обновление одного повреждает другое. Неуспех логической интеграции — когда обновление фактов не распространяется на выводы: изменения касаются только токенов, а не смысловых концепций. Забвение (unlearning) — пока невозможно: нет дифференцируемых операций вычитания, поэтому невозможно точно удалить ложную или вредную информацию.

Есть и менее очевидные проблемы. Разделение обучения и развертывания — не только инженерный вопрос, но и вопрос безопасности, аудита и управления. Расширение этого раздела вызывает новые риски: неконтролируемое снижение безопасности при тонкой настройке на узком наборе данных, создание уязвимостей для атак с подменой данных — так называемого «отравления» модели. Также усложняется аудит — модель, постоянно обновляющаяся, — это подвижная мишень, которую трудно контролировать, тестировать или сертифицировать. Внутри параметров могут оказаться конфиденциальные сведения, что увеличивает риски утечки и усложняет фильтрацию.

Это — открытые вопросы, а не невозможность. Их решение — часть программы развития непрерывного обучения, как и решение архитектурных задач.

От «Мементо» к настоящей памяти

Трагедия Леонарда в «Мементо» — не в том, что он не может функционировать — он очень умный и даже талантливый. Его трагедия — в том, что он не может накапливать эффект сложения. Каждое переживание — внешнее: мгновенная фотография, татуировка, заметка. Он умеет извлекать информацию, но не способен сжимать новые знания.

Когда Леонард бродит по своему лабиринту, граница между реальностью и верой стирается. Его болезнь — не только потеря памяти, она заставляет его постоянно пересобирать смысл, делая его одновременно детективом своей собственной истории и ненадежным рассказчиком.

Сегодняшний ИИ работает в похожих условиях. Мы создали очень мощные системы поиска: длинные окна, умные оболочки, согласованные мультиагенты — и они работают. Но поиск — не обучение. Система, которая может найти любой факт, не вынуждена искать структуру. Она не вынуждена обобщать. Механизм мощного сжатия — превращения исходных данных в переносимые представления — мы отключили в момент развертывания.

Путь вперед — не один прорыв, а многоуровневая система. Контекстное обучение останется первой линией защиты: оно — нативное, проверенное, постоянно совершенствующееся. Модульные механизмы смогут решать задачи персонализации и специализации. Но для действительно сложных задач — открытия, противодействия адаптации, скрытых знаний — потребуется, чтобы модель после обучения продолжала сжимать опыт в параметры. Это потребует прогресса в разреженных архитектурах, метаобучении и циклах самосовершенствования. Возможно, придется переосмыслить понятие «модель»: не как статический набор весов, а как эволюционную систему, включающую память, алгоритмы обновления и абстрактные способности извлекать знания из опыта.

Объем архивов растет. Но даже самый большой архив — это архив. Прорыв — в том, чтобы сделать так, чтобы модель после развертывания могла учиться, сжимать, абстрагировать и развиваться. Мы стоим на грани перехода от моделей с амнезией к моделям с «капелькой опыта». Иначе — застрянем в собственных «Мементо».

a16z：Развертывание больших моделей — это потеря памяти, сможет ли «непрерывное обучение» разорвать этот порочный круг?

Популярные темы

WCTCTradingChallengeShare8MUSDT

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Закрепить