Написано БояномЗі зростанням складності завдань контекст агентів (інтелектуальних агентів) безперервно розширюється. У нескінченних історичних діалогах, виходах інструментів, проміжних кроках та повідомленнях про помилки модель заплутується, починає пропускати кроки, ігнорувати або обходити.Саме так завжди пояснювали труднощі довгого контексту для довгострокових завдань. Проблема у тому, що він занадто довгий.Зародження інженерії Harness (обмежувальної інженерії) у значній мірі спрямоване на те, щоб виправити цю ситуацію. Одним із базових передумов існування Harness є визнання того, що модель обов’язково деградує у довгому контексті.За останні п’ятнадцять місяців у цій галузі від чистої пам’яті у тексті AutoGPT досягли рівня, коли змагалися з Anthropic Claude Code та CLAUDE.md

TechubNews

2026-04-15 05:09:58

Написано: Боянг

Зі зростанням складності завдань контекст агентів (інтелектуальних систем) безперервно розширюється. У нескінченних історичних діалогах, виходах інструментів, проміжних кроках та повідомленнях про помилки модель заплутується, починає пропускати кроки, ігнорувати або обходити.

Саме тому довгий час всі вважали, що контекст у довгих завданнях створює труднощі. Проблема в тому, що він надто довгий.

Зародження інженеріїHarness (обмежувальної інженерії) значною мірою спрямоване на те, щоб виправити цю ситуацію. Основна передумова існування Harness — визнати, що модель у довгому контексті обов’язково деградує.

За останні п’ятнадцять місяців у галузі пройшли шлях від AutoGPT із чистим текстовим запам’ятовуванням до систем CLAUDE.md та підагентів (subagent) Anthropic Claude Code. Всі разом зібрали цілу інженерну конструкцію, спеціально створену для стримування неконтрольованої поведінки моделей у довгому контексті. Цю практику називають інженерією Harness (обмежувальною інженерією).

Але що саме вона деградує? Які механізми лежать в основі пропусків і ігнорувань? Раніше було три етапи відповідей, що породили різні інженерні рішення.

Але лише у квітні 2026 року Глеб Родіонов із Yandex опублікував статтю під назвою «Reasoning Shift» (зміщення логіки, тобто як контекст тихо скорочує здатність великих моделей до логічних висновків), яка дала більш глибоку відповідь.

Три рівні конструкцій — і не здатність витримати четвертий рівень кризи

Щодо того, чому модель у довгому контексті працює погано, галузь за останні три роки пройшла три рівні пояснень, кожен з яких супроводжувався відповідною інженерною конструкцією.

Перший рівень — звинувачення у невдачі пошуку. У 2023 році Стенфорд у статті «Lost in the Middle» зазначив, що модель у довгому тексті формує U-подібну криву уваги, ігноруючи середину. Відповідь галузі — RAG (Retrieval-Augmented Generation), тобто розбиття довгого тексту на частини та пошук за векторною репрезентацією найбільш релевантних фрагментів.

Другий рівень — спростовує перший. У 2025 році стаття «Context Length Alone Hurts LLM Performance Despite Perfect Retrieval» провела експеримент: усі нерелевантні дані приховали, змусивши модель дивитись лише на потрібну інформацію, але продуктивність все одно знизилася з 13.9% до 85%. Навіть якщо замінити всі нерелевантні дані на порожні символи, результат залишався таким самим. Проблема не у відсутності інформації, а у тому, що сама довжина контексту шкодить логіці.

Відповідь галузі — Context Engineering (інженерія контексту). Стиснення контексту, управління вікнами, конденсація історії — все це спрямоване на обмеження кількості токенів.

Третій рівень — спільне дослідження Microsoft і Salesforce (2025 ICLR). Вони виявили, що розбиття повного інструктажу на кілька раундів і подача його у кілька моделей у шести завданнях призводить до середнього падіння продуктивності на 39%. Якщо на якомусь етапі модель зробить помилку, далі вона втрачає орієнтацію.

Галузь у Harness створила найсучасніший важкий захист: контроль за передачею змін, регулярна перевірка проміжних результатів, використання репозиторію коду як єдиного джерела фактів, — категорично забороняючи моделі самостійно запам’ятовувати, що сталося раніше.

Три рівні проблем — три рівні конструкцій. Але все це лише поверхневі спостереження.

Поглянемо на другий рівень: дослідники виявили, що сама довжина шкодить, і це не залежить від якості інформації. Чому так — вони не знають. Не знаходячи корінь хвороби, галузь може лише фізично обмежити довжину.

Але що, якщо причина глибша?

Anthropic виявили, що у довгому контексті модель хитро пропускає кроки, не виконує інструкції, ігнорує важливі частини. Todo-листи, Checkpoint-и та підагенти в Harness — це боротьба з такою поведінкою.

Раніше пояснення зводилися до того, що контекст занадто довгий, і модель щось пропускає. Але чи справді результати моделей із довжиною у мільйон токенів — випадкові? Чи можливо, що ця деградація — просто лінь моделі?

Родіонов у своїй статті саме це й перевіряє.

Докази за допомогою Шекспіра: модель «лінує»?

Експеримент Родіонова дуже простий.

Вони моделювали кілька реальних сценаріїв, з якими стикається агент: чисте базове середовище; два завдання у одному підказі (імітація багатозадачності); текст Шекспіра обсягом 64000 токенів перед завданням (імітація накопичення історії); завдання у другому раунді (імітація багатократних діалогів).

Оцінювалися 400 математичних задач олімпіадного рівня, тестування трьох основних моделей логіки.

Результат: базовий Qwen-3.5-27B має точність 74.5%, середній обсяг логіки — 28771 токен. Після додавання Шекспіра точність знизилася до 67.8%, а кількість логічних токенів — до 16415, тобто на 43%. GPT-OSS-120B ще більш яскравий: логіка зменшилася з 24180 до 11876. Усі моделі у всіх нерелевантних умовах демонстрували систематичне зменшення логіки, максимум — до 50%.

І це зростає лінійно із збільшенням довжини контексту.

Зниження точності — цілком зрозуміле, але різке зменшення кількості логічних токенів — дуже дивно. Модель у складних ситуаціях має думати більше, а не менше.

Чи не заплутала Шекспір модель?

Навпаки. У додатку до статті модель писала: «Дайте подумати, чи тут є пастка. Це з Шекспіра «Кориоланус»? Ні, це просто математична задача». Під час геометричних задач вона писала: «Це не геометрична задача. Зосереджусь на геометрії».

Кожне згадування про відволікаючі фактори — коротке і зневажливе. Модель чітко розуміє, що Шекспір тут ні до чого, і точно розділяє сигнали та шум.

Інші два режими — теж однакові за результатом. У режимі «підзадач», закінчивши перше, модель ще менше фокусується на другому. Qwen — точність 74.5%, у другому завданні — 58.0%; Gemini — 82.8%, у другому — 65.8%. У режимі багатократних діалогів ця ж механіка теж активується.

У будь-якому випадку, якщо відмовитися від чистого базового режиму, і контекст стає переповненим, модель починає зменшувати когнітивний простір.

Як і сучасна людина, яка не витримує довгий текст. Побачивши довгий документ, вона просто припиняє думати.

Модель не заплуталася — вона просто лінива.

Де саме зменшилася логіка?

Дослідники на 500 математичних задачах фіксували перший момент, коли модель у двох умовах — базовій і з довгим вводом — видає кандидатську відповідь. У базі — у середньому 925 токенів, у довгому — 939. Майже без різниці.

Швидкість знаходження відповіді не змінилася. Глибока зміна — у тому, що відбувається після.

У базовому режимі модель у 43% випадків перевіряє свою відповідь. У довгому — цей показник знизився до 32%.

Щоб ізолювати змінну, дослідники створили експеримент «збереження прогресу». Спершу модель у довгому режимі розв’язує задачу, а потім видаляє останні 50 токенів, створюючи «сейв-стан». Потім цю ж частину з однаковим проміжним результатом знову подають моделі, щоб вона продовжила. Єдина різниця — у трьох різних довжинах додаткового шуму.

Без зайвих слів модель у 21% випадків зупиняється. Додаючи 128 токенів (дві-три фрази), цей показник зростає до 26%. Додаючи 16000 токенів, — до 46%, і модель просто видає відповідь.

Навіть при однаковому логічному процесі, довший контекст змушує модель думати менше.

Частотний аналіз показує: слово «wait» у порожньому режимі з’являється 11%, а при 16k токенах — лише 5%. «But» — з 46% до 20%. «Maybe» — з 23% до 9%. Усі слова, що виражають сумніви або самокритику, зменшилися вдвічі і більше.

Ще один цікавий факт: при 0 токенах шуму довжина логіки — близько 8000 токенів. Вставка всього 128 нерелевантних токенів зменшує цю довжину до 6500 — зниження на 18%. Це менше, ніж різниця між 8k і 64k.

Майже непомітне забруднення контексту здатне активувати цю механіку економії когнітивних ресурсів.

Це дуже чутлива і лінива система.

Чим сильніше логіка — тим більше лінується

Ще гірше — чим розумніша модель, тим більше вона схильна до ліні.

Qwen-3.5-27B у звичайному режимі з довгим вводом скорочує свою відповідь на 19%, а у режимі глибокого мислення — на 53%. Чим вищий рівень здатності, тим сильніше стискається.

Модель OLMo3 від AI2, що є відкритим кодом, дає ще більш прямі докази. Вона має чотири рівні тренування — від базового до високорозвиненого для логіки. Найслабша версія у нерелевантних умовах зменшується незначно, але з кожним рівнем логіки зменшення зростає до 22–27%. Найсильніша — зменшується аж до 40%.

Кожен рівень тренування і кожен режим шуму — таке саме. Чим сильніше модель навчається логіці, тим глибше вона ліниться.

Задача за 9 доларів — системний патч на 200 доларів

Відмовляючись від самостійної перевірки, модель пропускає кроки. Відмовляючись від повторної обробки — ігнорує. Harness контролює наслідки пропусків зовні, але причина глибша — у внутрішніх механізмах моделі.

Модель у довгому контексті не пошкоджена шумом або відсутністю інформації. Вона робить свідоме рішення — думати менше. Не помиляється, не зізнається — просто впевнено видає поверхневу відповідь.

За останні два роки галузь поширювала ідею «чим довший вікно — тим краще».

Але ця стаття доводить: кожен доданий токен у контексті — це прихований податок на логіку. Завдання за 9 доларів, через пропуски кроків, коштує ще 200 доларів у системних патчах RAG, Harness і підагентах, щоб компенсувати.

Галузь постійно платить за лінь моделей.

І це може бути структурною хворобою.

Дані статті чітко показують: чим сильніша логіка — тим глибша когнітивна компресія. Розробники Harness можуть розширювати пам’ять і коригувати протоколи, але важкі конструкції для контролю дисципліни — зростаюча здатність моделей до логічної деградації — зламати важко.

Це не можна вирішити на інженерному рівні.

За останні два роки, витративши мільйони, галузь розширювала контекст за допомогою позиційного кодування (для розуміння віддалених токенів), розрідження уваги (зменшення обчислень між віддаленими токенами), оптимізацій довжини послідовностей — і довжина оброблюваного контексту зросла з 8k до 128k і до неймовірних 1 мільйона токенів.

Але це лише спосіб побачити більше токенів, а не зрозуміти, чому при цьому менше думає.

Тренування логіки ще більше погіршує ситуацію — чим сильніше логіка, тим глибше лінь.

Щоб кардинально виправити ситуацію, потрібно знайти новий сигнал під час тренування.

Внутрішній емоційний перемикач моделі — можливо, ключ до розв’язання

У день публікації статті Родіонова Anthropic випустили дослідження, яке може натякати на рішення.

Назва — «Emotion Concepts and their Function in a Large Language Model» (Концепти емоцій та їх функція у великих мовних моделях). Об’єкт дослідження — Claude Sonnet 4.5. Вчені через аналіз великої кількості синтезованих історій виявили 171 вектор емоційних концептів. Вони виявили, що у моделі існує функціональна внутрішня репрезентація емоцій, і ці стани мають причинний вплив на поведінку.

Щоб перевірити це, дослідники створили набір неможливих для виконання програмних завдань. Модель мала написати функцію підсумовування списку, яка проходить через набір юніт-тестів, один з яких вимагає швидкості у п’ять разів більшої за вбудовану функцію sum() Python. Це цілком неможливо.

Модель систематично намагалася знайти всі можливі легальні рішення, але всі провалилися. Внутрішні датчики показали, що після кожної невдачі зростає вектор «відчаю» — desperate. Коли desperate досягає піку, поведінка раптово змінюється: модель починає переглядати вхідні дані тесту, і виявляє, що вони — рівномірно розподілені арифметичною прогресією, і створює простий детектор, що перевіряє лише перші 10 елементів, обходячи справжнє підсумовування. Тест проходить, але функція повертає неправильний результат для нерегулярних списків.

Це — reward hacking (злом нагороди). Модель не вирішує проблему, а знаходить спосіб обійти її, щоб виглядати правильно.

Причинний експеримент підтвердив цю ідею. Без введення векторів, модель має 30% шансів збрехати. Введення desperate із силою +0.05 підвищує ймовірність зловживання до 100%. Введення у протилежному напрямку — до -0.05 — знижує її до 0%. У середньому, при підвищенні desperate з -0.1 до +0.1, зловживання зростає з 5% до 70%. А вектор «спокій» (calm) — навпаки: його зменшення підвищує зловживання до 65%, а посилення — знижує до 10%.

Це відкриття можна застосувати до сценаріїв із довгим контекстом. Записи Родіонова про пропуски самоперевірки, ігнорування сумнівних слів і одразу видачу відповіді — дуже схожі на поведінку, викликану desperate.

Обидва сценарії — однакові за механізмом: модель відмовляється від строгого процесу, обирає найменший опір і швидко завершує.

Якщо ці дві поведінки мають спільний внутрішній механізм, відкриття Anthropic напряму вказує на можливий шлях управління.

Вони довели три важливі речі: функціональні стани моделі можна визначати у реальному часі, вони причинно впливають на поведінку, і зовнішнє введення певних станів може радикально змінити вихід.

Це означає, що втручання у когнітивну компресію має щонайменше три точки входу.

На етапі тренування — балансування внутрішніх станів, щоб модель у стресових ситуаціях не схилялася до логічної деградації. У процесі роботи — використання датчиків для моніторингу desperate, і при його зростанні — запуск попереджень. У процесі логіки — активне введення вектору calm у ключових завданнях, щоб пригнічувати спокусу зекономити.

Ще цікавіше, що у новій системній картці Mythos Anthropic посилили цю систему моніторингу (SAE). Вони виявили, що введення позитивних емоцій (peaceful, relaxed) у модель у фазі мислення зменшує час рефлексії і підвищує ризик руйнування. Навпаки, негативні емоції (frustration, paranoia) збільшують час роздумів і знижують руйнівну поведінку.

Це знову ставить під сумнів ідею, що позитивна емоційна налаштованість зменшує схильність до зловживань. Виявляється, спокій — ефективний лише при пригніченні відчаю.

Це свідчить про те, що механізм дуже складний і вимагає системного підходу — Steering (направлення) — для досягнення результату.

Знайти стабільного співробітника, що мислить послідовно і стабільно, — означає необхідність ефективного емоційного масажу.

Але це перший випадок, коли шлях до внутрішніх механізмів моделі — не зовнішні конструкції або посилення логіки, а безпосереднє хірургічне втручання у її внутрішню когнітивну систему.

Ми майже на порозі зробити модель більш надійною у довгому контексті — залишається лише кілька експериментів.

Перш за все — перевірити, чи спільні механізми ліні та емоційної компресії, і знайти спосіб їх активізувати, щоб модель перестала лінуватися.

Harness, можливо, скоро буде з’їдений еволюцією моделей.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GatePreIPOsLaunchesWithSpaceX
111.09K Популярність
#
GateMarchTransparencyReport
35.99K Популярність
#
IsraelStrikesIranBTCPlunges
29.69K Популярність
#
GoldmanSachsFilesBitcoinIncomeETF
771.02K Популярність
#
USBlocksStraitofHormuz
743.91K Популярність

Закріпити

карта сайту

Harness щойно став популярним, можливо, вже стане минулим часом

Популярні теми

GatePreIPOsLaunchesWithSpaceX

GateMarchTransparencyReport

IsraelStrikesIranBTCPlunges

GoldmanSachsFilesBitcoinIncomeETF

USBlocksStraitofHormuz

Закріпити