a16z: Розгортання великих моделей — це втрата пам’яті, чи може «безперервне навчання» зламати цей замкнене коло?

Question

Автор: Маліка Аубакірова, Мэтт Борнштейн

Переклад: Глибока хвиля TechFlow

Глибока хвиля: Велику мовну модель після тренування «заморожують», і для її роботи після розгортання потрібно лише зовнішні патчі, такі як контекстне вікно, RAG тощо — по суті, вона схожа на пацієнта з амнезією з «Пам’яті зламані фрагменти» — може витягати інформацію, але не здатна справді вчитися новому. Два партнери з a16z систематизували передову дослідницьку галузь «безперервного навчання», розглядаючи три шляхи: через контекст, модулі та оновлення ваг — розкриваючи технологічний напрямок, що може переосмислити межі можливостей ШІ.

У фільмі Крістофера Нолана «Пам’ять зламані фрагменти» головний герой Леонард Шелбі живе у фрагментованому теперішньому. Травма мозку спричинила у нього амнезію з прогресуючим забуванням, він не може формувати нові спогади. Кожні кілька хвилин його світ перезавантажується, він застряг у вічному «зараз», не пам’ятаючи, що сталося щойно, і не знаючи, що буде далі. Щоб вижити, він робить татуювання, використовує фотокартки, покладається на зовнішні засоби, щоб компенсувати неспроможність пам’яті.

Великі мовні моделі також живуть у подібному вічному теперішньому. Після тренування масив знань заморожений у параметрах, модель не може формувати нові спогади, оновлювати свої параметри на основі нового досвіду. Щоб компенсувати цей недолік, ми створили для неї кілька каркасів: історія чатів — короткострокові нотатки, системи пошуку — зовнішні блокноти, підказки — як татуювання на тілі. Але сама модель ніколи не внутрішньо засвоює цю нову інформацію.

Все більше дослідників вважають, що цього недостатньо. Контекстне навчання (ICL) може працювати, якщо відповідь (або її фрагменти) вже існує десь у світі. Але для задач, що вимагають справжнього відкриття (наприклад, нові математичні доведення), у протиборчих сценаріях (безпека, атаки і захист) або у випадках, коли знання надто приховані або важко виразити словами, є підстави вважати: модель потребує способу, щоб після розгортання безпосередньо записувати нові знання та досвід у свої параметри.

Контекстне навчання — тимчасове. Справжнє навчання вимагає компресії. Поки ми дозволяємо моделям постійно компресувати, вони можуть застрягти у вічному «зараз» з «Пам’яті зламані фрагменти». Навпаки, якщо навчити модель самостійно будувати свою архітектуру пам’яті, а не покладатися на зовнішні інструменти, це може відкрити новий рівень масштабування.

Ця галузь називається безперервним навчанням (continual learning). Хоча концепція не нова (див. роботи МакКлоскі та Коена 1989 року), ми вважаємо її однією з найважливіших у сучасному AI. Вибуховий ріст можливостей моделей за останні роки зробив різницю між «знаним» і «здатним знати» все більш очевидною. Мета цієї статті — поділитися знаннями, отриманими від провідних дослідників у цій галузі, допомогти зрозуміти різні шляхи безперервного навчання і сприяти розвитку цієї теми у стартапах.

Примітка: ця стаття стала можливою завдяки глибокому обміну ідеями з групою дослідників, аспірантів і підприємців, які щедро поділилися своїми роботами та поглядами у сфері безперервного навчання. Від теоретичних основ до інженерних аспектів післярозгорткового навчання — їхні інсайти зробили цю статтю набагато міцнішою, ніж ми могли б написати самі. Щиро дякуємо за ваш час і ідеї!

Спершу про контекст

Перед тим, як захищати ідею про навчання на рівні параметрів (оновлення ваг моделі), потрібно визнати один факт: контекстне навчання дійсно працює. І існує сильна аргументація, що воно й надалі буде переважати.

Суть трансформера — у прогнозуванні наступного токена на основі послідовності. Надіслати йому правильну послідовність — і отримати дивовижну поведінку, не торкаючись ваг. Саме тому методи управління контекстом, підказки, тонке налаштування та приклади з малим числом зразків настільки потужні. Інтелект закодований у статичних параметрах, а його прояви залежать від вмісту вікна.

Недавня глибока стаття Cursor про масштабування автономних агентів — хороший приклад: ваги моделі залишаються фіксованими, а справжня робота — у ретельному управлінні контекстом: що вставляти, коли робити підсумки, як підтримувати послідовність під час автономної роботи кілька годин.

Інший приклад — OpenClaw. Його популярність зросла не через особливі права на модель (її можуть використовувати всі), а через те, що він ефективно перетворює контекст і інструменти у робочий стан: відстежує, що ти робиш, структурує проміжні результати, вирішує, коли оновлювати підказки, зберігає пам’ять про попередню роботу. OpenClaw підняв «оболонковий дизайн» агентів до рівня окремої науки.

Коли з’явилися перші підказки, багато дослідників сумнівалися, що «тільки підказки» можуть стати повноцінним інтерфейсом. Це здавалося хаком. Але це — базовий механізм архітектури трансформера, що не потребує повторного тренування і автоматично покращується з прогресом моделей. Зміцнюється модель — посилюється і підказка. «Простий, але нативний» інтерфейс часто перемагає, оскільки він безпосередньо зв’язаний із системою, а не бореться з нею. Історично так і розвивався шлях LLM.

Модель простору стану: контекст у версії «стероїд»

Коли основний робочий процес переходить від викликів базового LLM до циклів агентів, навантаження на контекстні моделі зростає. Раніше рідко траплялося, щоб вікно було заповнене повністю. Це зазвичай відбувалося, коли потрібно було виконати довгу низку дискретних задач, і рівень застосування дозволяв просто обрізати історію чату. Але для агентів одна задача може з’їсти значну частину доступного контексту. Кожен крок циклу залежить від попереднього, і через 20–100 кроків вони часто «розриваються»: контекст заповнений, зв’язність падає, і система не сходиться.

Тому провідні лабораторії активно розробляють моделі з наддовгим контекстом. Це природний шлях — базується на вже ефективних методах (контекстне навчання) і відповідає тренду на обчислювальні переходи під час дедукції. Найпопулярніша архітектура — вставка фіксованих пам’яті між увагою, тобто моделі стану (SSM) та лінійної уваги (далі — SSM). Вони забезпечують суттєво кращу масштабованість у довгих сценаріях.

Зображення: порівняння масштабування SSM і традиційної уваги

Мета — підвищити кількість кроків у безперервному режимі з приблизно 20 до 20 000, зберігаючи широкі навички та знання, які дає стандартний трансформер. Це стане проривом для довготривалих агентів. Можна вважати цю технологію формою безперервного навчання: без оновлення ваг, але з майже незмінною зовнішньою пам’яттю.

Отже, ці невагомі методи — реальні і потужні. Оцінюючи безперервне навчання, потрібно починати саме з них. Питання не в тому, чи працює сьогодні система контексту — вона працює. Питання у тому, чи ми вже досягли межі, і чи зможуть нові підходи вивести нас далі.

Що пропущено у контексті: «міф архівної шафи»

«Що стосується AGI і передтренування, то у певному сенсі вони переоцінені… Людина не є AGI. Так, у людини є базові навички, але вона позбавлена багатьох знань. Ми покладаємося на безперервне навчання. Якщо я створюю надрозумного 15-річного підлітка, він нічого не знає. Хороший студент, дуже прагне вчитися. Можна сказати, що він стане програмістом, лікарем. Сам процес розгортання передбачає навчання, проби і помилки. Це — процес, а не просто випуск готового продукту. — Ілля Сутскевер»

Уявімо систему з необмеженим сховищем. Найбільша архівна шафа у світі, де кожен факт ідеально індексується і миттєво доступний. Вона може знайти будь-що. Вона навчилася? Ні.

Вона ніколи не була змушена робити компресію.

Це — ключовий аргумент. Він базується на думці Іллі Сутскевера: LLM — за своєю природою алгоритм компресії. Під час тренування вони стискають інтернет у параметри. Компресія — з втратами, і саме ця втратність робить їх потужними. Компресія змушує модель шукати структури, узагальнювати, будувати репрезентації, що переносяться через контексти. Модель, яка заучує усі тренувальні зразки напам’ять, гірша за ту, що вміє виявляти закономірності. Втратна компресія — це і є навчання.

Іронія в тому, що механізм, що робить LLM настільки потужними під час тренування (стиснення даних у компактні, переносимі репрезентації), — саме те, що ми відмовляємося робити після розгортання. Ми припиняємо компресію і використовуємо зовнішню пам’ять. Звісно, більшість агентів мають свою власну компресію контексту у вигляді модулів. Але гіркий урок (bitter lesson) полягає в тому, що модель сама має навчитися цій компресії — прямо і масштабно.

Ю Сун навів приклад із математики: теорема Ферма. Більше 350 років ніхто не міг її довести, не через брак правильних джерел, а через високу складність рішення. Ідеї та знання були, але концептуальна відстань до відповіді — надто велика. Вільям Уайлс у 1990-х роках працював сім років у відриві від світу, винаходячи нові техніки для доведення. Його доведення базувалося на успішному з’єднанні двох різних галузей математики: еліптичних кривих і модульних форм. Хоча ще раніше Кен Рібет довів, що, якщо побудувати цю зв’язок, теорема Ферма автоматично доведена, — до Уайлса ніхто не мав теоретичних інструментів для побудови такої «місту». Аналогічно доведення Перельмана до гіпотези Пуанкаре можна розглядати через цю призму.

Головне питання: чи ці приклади доводять, що LLM позбавлені чогось — здатності до оновлення, справжнього креативного мислення? Або навпаки — що всі людські знання — це лише дані для тренування і переробки, і Уайлс з Перельманом показали, що й на більш масштабних моделях це можливо?

Це — емпіричне питання, відповідь ще не визначена. Але ми знаємо, що багато задач, де контекстне навчання зазнає невдачі, можуть бути вирішені за допомогою оновлення параметрів. Наприклад:

Зображення: категорії задач, де контекстне навчання зазнає невдачі, а оновлення ваг — потенційно вигідніше

Більш важливо, що контекстне навчання здатне працювати лише з тим, що можна виразити мовою, тоді як ваги можуть кодувати концепції, які підказки передати словами не здатні. Деякі моделі мають надто високий рівень прихованих структур, щоб їх можна було описати словами. Наприклад, візуальні текстури у медичних сканах, що відрізняють доброякісні артефакти від пухлин, або унікальні ритми мовлення, — ці патерни важко розкласти на точні слова. Мова — лише наближення. Такі знання живуть у вагових репрезентаціях, у підпросторі навчальних уявлень, а не у тексті. І навіть при дуже довгих підказках, ці знання залишаються поза межами тексту і можуть бути збережені лише у параметрах.

Це може пояснити, чому функція «запам’ятовування» у явних системах (наприклад, пам’ять ChatGPT) часто викликає дискомфорт, а не захоплення. Користувачі хочуть не просто «пам’яті», а здатності. Модель, яка внутрішньо засвоїла їх поведінкові патерни, може узагальнювати у нових сценаріях; та, що просто зберігає історію, — ні. «Це те, що ти писав у цій пошті минулого разу» (буквальний цитат) — і «Я вже достатньо зрозумів твій стиль, щоб передбачити, що тобі потрібно» — різниця між пошуком у пам’яті і справжнім навчанням.

Вступ до безперервного навчання

Безперервне навчання має багато шляхів. Головна межа — не у тому, чи є пам’ять, а у тому, де відбувається компресія. Ці шляхи розташовані вздовж спектра: від без компресії (чистий пошук, фіксовані ваги) до повної внутрішньої компресії (оновлення ваг, що робить модель розумнішою), і між ними — важливий проміжний рівень — модулі.

Зображення: три основні шляхи безперервного навчання — контекст, модулі, ваги

Контекст

На цій стороні спектра — команда створює більш розумні системи пошуку, оболонки агентів і підказки. Це найрозвинутіша частина: інфраструктура вже доведена до роботи, шлях розгортання зрозумілий. Обмеження — у довжині контексту.

Новий перспективний напрям — мультиагентні архітектури як спосіб масштабування контексту. Якщо один модель обмежена 128 тисячами токенів, група взаємодіючих агентів — кожен з власним контекстом і спеціалізацією — може приблизно імітувати необмежену пам’ять. Кожен агент навчається у своєму вікні; система агрегує результати. Проекти Karpathy і Cursor із веб-браузером — ранні приклади. Це чисто невагомий підхід, але він значно підвищує можливості систем з довгим контекстом.

Модулі

У модульній частині — створюють вставні знання (зжаті KV-кабінети, адаптери, зовнішні сховища), що дозволяє універсальним моделям спеціалізуватися без повторного тренування. 8-мільярдна модель з відповідними модулями може показувати результати, що наближаються до 109-мільярдних моделей, при цьому використання пам’яті — мінімальне. Це — привабливо, бо сумісне з існуючими трансформерними системами.

Ваги

На рівні оновлення ваг — дослідники прагнуть до справжнього параметричного навчання: оновлення окремих частин ваг, використання зворотного зв’язку для оптимізації, тестове тренування під час inference (test-time training). Це — найглибші і найскладніші підходи, але вони дозволяють моделі внутрішньо засвоювати нову інформацію та навички.

Деякі напрямки оновлення ваг:

Зображення: огляд напрямків досліджень у оновленні ваг

Регуляризація і методи у просторі ваг: EWC (Kirkpatrick et al., 2017), що штрафує зміни ваг залежно від важливості для попередніх задач; інтерполяція ваг (Kozal et al., 2024), що змішує старі і нові ваги. Обидва — уразливі у масштабі.
Тестове тренування (Sun et al., 2020): градієнтне оновлення на тестових даних, щоб у потрібний момент зжати нову інформацію у ваги.
Мета-навчання: навчити модель «як вчитися» (Finn et al., 2017), наприклад, MAML, або більш складні підходи (Nested Learning, 2025), що структуровані у ієрархічні модулі для швидкої адаптації і повільного оновлення.
Дистиляція: навчання студентської моделі відповідати фіксованому учителю. LoRD (Liu et al., 2025) — ефективна дистиляція з буфером відтворення. Самодистиляція (SDFT, Shenfeld et al., 2026) — модель сама генерує навчальні сигнали, обходячи проблему катастрофічного забування. Саморефлексія (STaR, Zelikman et al., 2022) — згенеровані ланцюги мислення. AlphaEvolve (DeepMind, 2025) — алгоритми оптимізації, що не змінювалися десятиліттями. «Епоха досвіду» (Silver і Sutton, 2025) — визначає навчання агентів як безперервний потік досвіду.

Ці напрями зливаються. TTT-Discover поєднує тестове тренування і дослідження з RL. HOPE — поєднує швидке і повільне навчання у єдиній архітектурі. SDFT перетворює дистиляцію у самовдосконалення. Межі між підходами стираються. Майбутні системи безперервного навчання, ймовірно, будуть поєднувати кілька стратегій: стабілізація через регуляризацію, швидке адаптування через мета-навчання, і накопичення досвіду через самовдосконалення. Багато стартапів вже інвестують у цю технологію.

Комерційна карта безперервного навчання

На найпростішому рівні — зовнішні системи (Letta, mem0, Subconscious) створюють інфраструктуру для управління контекстом і зовнішніми сховищами. RAG-системи (Pinecone, xmemory) забезпечують пошук. Дані є, але важливо — правильно і вчасно подавати потрібний фрагмент. З розширенням контексту зростає і кількість стартапів, що створюють рішення для управління складними стратегіями.

Що стосується оновлення ваг — тут теж з’являються компанії, що прагнуть «запакувати» нову інформацію у ваги після розгортання. Вони роблять ставки на різні підходи:

Часткове компресування: без повторного тренування. Створюють вставні модулі (зжаті KV, адаптери, зовнішні сховища), що дозволяє спеціалізувати модель без зміни основних ваг. Це — модульна архітектура, що легко інтегрується і оновлюється.
Навчання зворотним зв’язком і фідбеком: використовують сигнали користувачів, результати задач, реальні дані для оновлення. Це — схоже на людський спосіб навчання: робиш, отримуєш зворотний зв’язок, внутрішньо коригуєшся.
Орієнтація на дані: збирають і генерують високоякісні дані для подальшого навчання. Вважається, що з хорошим набором даних і структурованим сигналом модель може швидко покращитися навіть при мінімальних оновленнях.
Нові архітектури: вважають, що сама структура трансформера — обмеження, і потрібно створювати нові обчислювальні примітиви з внутрішнім динамічним навчанням і пам’яттю.

Всі провідні лабораторії активно досліджують ці напрями. Вибір залежить від застосування і цілей — і, ймовірно, у майбутньому не буде однієї «переможної» стратегії.

Чому просте оновлення ваг може провалитися

У реальних системах оновлення ваг призводить до низки проблем:

Зображення: проблеми простого оновлення ваг

Катастрофічне забування: модель, що занадто чутлива до нових даних, руйнує вже сформовані репрезентації — баланс стабільності і пластичності порушується.
Неузгодженість логіки: зміни у вагових параметрах не поширюються на висновки і логіку, що базуються на них — оновлення не «перекриває» старі знання.
Безпека і аудит: розділення між тренуванням і розгортанням — важливе для безпеки, контролю і управління. Відкриття цієї межі створює ризики: неконтрольовані зміни, зловживання, втрати контролю.
Приватність і етичність: оновлення ваг може зберігати конфіденційну інформацію, що ускладнює контроль і аудит.

Ці проблеми — відкриті питання, і їх вирішення — частина досліджень у галузі безперервного навчання.

Від «зламаних фрагментів» до справжньої пам’яті

Герой «Пам’яті зламані фрагменти» — не стільки не здатний функціонувати, скільки не здатний накопичувати і примножувати досвід. Його зовнішні «запам’ятовування» — фотокартки, татуювання, нотатки — дозволяють витягати інформацію, але не формують внутрішню пам’ять. Він може витягти факт, але не може його зберегти і узагальнити.

Коли Леонард блукає у своєму лабіринті, межа між реальністю і вірою стирається. Його хвороба — не лише втрата пам’яті, а й постійне переосмислення сенсу, пошук нових значень. Він — і детектив, і оповідач, і вигадник.

Сучасний AI працює у схожих обмеженнях. Ми створили потужні системи пошуку, довгі контексти, координацію агентів — але це не означає, що вони навчилися вчитися. Вони можуть знайти будь-який факт, але не зобов’язані шукати структури. Вони не зобов’язані узагальнювати. Механізм компресії, що робить модель потужною під час тренування, — саме те, що ми відключаємо у процесі розгортання.

Майбутнє — у багаторівневих системах. Контекстне навчання залишиться базовим рівнем: воно — природне, перевірене і постійно вдосконалюється. Модульні системи допоможуть у персоналізації і спеціалізації. Але для вирішення складних задач — відкриття, протидія адаптації, приховані знання — потрібно, щоб модель після тренування могла продовжувати вчитися і компресувати досвід у параметри. Це — прогрес у архітектурі, мета-навчанні і циклах самовдосконалення. Можливо, потрібно переосмислити поняття «модель»: не просто набір ваг, а еволюційна система, що містить пам’ять, алгоритми оновлення і здатність абстрагувати досвід.

Архіви зростають. Але навіть найбільша шафа — це все ще шафа. Переворот — у здатності моделі під час розгортання навчатися, компресувати і вчитися. Ми стоїмо на порозі переходу від моделей з амнезією до моделей із часткою досвіду. Інакше — застрягнемо у власних «зламаних фрагментах».

a16z: Розгортання великих моделей — це втрата пам’яті, чи може «безперервне навчання» зламати цей замкнене коло?

Популярні теми

WCTCTradingChallengeShare8MUSDT

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Закріпити