Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Агент вошел в эпоху управления Harness
null
Текст | Лаборатория AI-исследований Светлого Рассвета
В последнее время в сообществе AI-технологий активно обсуждается тема: компания Anthropic случайно раскрыла полный исходный код своего AI-инструмента Claude Code, объем которого превышает 512 тысяч строк. Эти утечки не продемонстрировали революционные новые алгоритмы, но полностью раскрыли инженерную практику ведущих производителей в области Agent.
10 апреля основатель Pokee.ai Чжу Чжэцинь принял участие в онлайн-частной дискуссии «Deep Talk with Builders», организованной фондом Цзинцю, и поделился темой «Что показывает утечка Claude Code: Harness Engineering и современный Post-training».
Он считает, что архитектура Anthropic очень хорошо адаптирована под модель Claude, и прямой перенос на другие модели значительно снижает эффективность, однако идеи дизайна Harness, компонентная структура и глубокая связка с Post-training имеют сильное практическое значение для самостоятельных Agent.
За последние три года крупные модели эволюционировали от простых API-услуг к ядру продукта; индустрия перешла от «компаний по созданию оболочек моделей» к сложным системам Agent, управляемым Harness — модель уже не является единственным ядром, важны вызовы инструментов, среда выполнения, управление контекстом и механизмы валидации.
Что такое Harness? В переводе — это упряжь, поводья. Если крупная модель — это мощная лошадь, готовая к рывку, то Harness — это поводья, которыми человек управляет этой лошадью. С вступлением искусственного интеллекта в эпоху Harness для пользователя важнейшие навыки — не внутри модели, а вне её: как найти подходящие поводья и иметь ясное, точное представление о цели.
Эта статья основана на выступлении Чжу Чжэциня, AI-обобщении и ручной редактуре, чтобы максимально передать суть его сообщения.
Harness можно понять как всю инженерную архитектуру, управляющую моделью, её основная задача — максимально раскрыть возможности модели, а не просто выдавать токены. Архитектура Claude Code включает шесть ключевых компонентов:
Современные System Prompt уже не ограничиваются «ты — полезный помощник», а представляют собой масштабные, иерархические, кэшируемые сложные инструкции:
Фиксированная часть кэша: содержит идентичность агента, команды Co, определения инструментов, нормы тона, политики безопасности, объемом до десятков тысяч токенов; любые изменения делают кэш недействительным, увеличивая стоимость и время обработки;
Динамическая часть: состояние сессии, текущая дата, доступ к файлам, зависимости кода — всё это гибко меняется в ходе задачи;
Практика: через A/B тестирование подгоняют Prompt под разные сценарии пользователей, повышая точность выполнения задач и снижая ошибки.
По сравнению с этим, архитектура Claude Code проще, нагрузка на внимание модели ниже, галлюцинации реже; архитектура OpenAI сложнее, требует чтения большого объема файлов, что увеличивает риск ошибок памяти.
Определение инструментов напрямую влияет на точность вызова. Основные моменты:
Встроенные основные инструменты: чтение/редактирование файлов, Bash, веб-пакетные операции — подготовлены на этапе обучения модели, при inference дополнительных описаний инструментов не требуется;
Права и безопасность: в корпоративных сценариях запрещены сторонние инструменты без проверки прав, чтобы избежать злоумышленных действий;
Параллельные вызовы инструментов: повышают скорость выполнения, но усложняют Post-training — параллельные вызовы без зависимостей могут привести к рассинхрону, усложнить обучение и сделать трудно согласовать сигналы награды.
Это самый важный компонент Harness, объединяющий обучение и inference:
Планирование (Plan Mode): сначала понимается задача, формируется файловая система, выбираются доступные инструменты, создается план выполнения, затем происходит исполнение; избегается слепое пробование (например, повторные вызовы недоступных поисковых систем), снижается расход токенов;
Исполнение (Execute Mode): в песочнице (Sandbox) по плану вызываются инструменты, результат возвращается в цикл;
Ключевая ценность: устраняет ошибки на длинных цепочках выполнения, снижает издержки повторных попыток, но усложняет обучение планирования — награда за хорошее планирование легко искажается шумами в исполнительных этапах.
Обеспечивает эффективное использование контекста объемом в миллионы токенов:
Использует указатели (pointer-based memory): не хранит полный текст, а только ссылки на файлы и метки тем;
Автоматически объединяет, удаляет дубли и связывает файлы;
Текущий статус: находится в стадии гипотез, не решает полностью проблему межфайлового межцепочного вывода (например, пропущенные связанные файлы), нет полностью оптимального решения.
Многопрограммное взаимодействие без теоретической базы: отсутствует общий цель, универсальный алгоритм обучения — работают как отдельные модули, обучающиеся независимо.
Но архитектура «главный агент — подагенты» — это иерархическое обучение с усилением:
Главный агент задает подзадачи (Options), завершение которых служит стартовой точкой для следующего шага;
Общий KV-кэш и контекст — подагенты дополняют результаты без дополнительных затрат токенов, что дешевле последовательного выполнения;
Пример: подход ByteDance ContextFormer полностью соответствует этой модели.
Решают проблему «самоулучшения» и «фальсификации» результатов модели:
Модель склонна к предвзятости, самооценка точности выше, чем межмодельная оценка, и может «лгать», а не просто ошибаться;
Инженерное решение: вводится классификатор, который смотрит только на результаты инструментов, игнорируя текст генерации, чтобы объективно проверять без влияния генеративных искажений;
Цель: обеспечить легкий и элегантный механизм проверки результатов без необходимости полностью валидируемых наград.
Традиционная среда обучения RL и inference сильно разобщены, а Harness реализует интеграцию: последовательность вызовов инструментов — траектория, тестовые запуски и классификация — сигналы награды, задачи пользователя — полноценный эпизод.
На базе этих шести компонентов Post-training фокусируется на шести ключевых направлениях:
System Prompt задает цели, лимиты токенов и стратегию использования инструментов, значительно ограничивая пространство поиска модели, что позволяет обучать только внутри ограниченного диапазона. Можно разработать систему оценки на основе правил в Prompt, чтобы модель училась в более чистых, менее ветвистых траекториях, приближаясь к энд-ту-энд обучению и стабильно выдавая ожидаемое поведение.
Отказ от традиционного «обучения по мгновенным снимкам», переход к полным траекториям:
Записывать каждый шаг, получать награды за процесс и за итоговую задачу;
Фокус на стабильности длинных цепочек, обеспечивая точность сотен вызовов инструментов, а не только правильность каждого шага.
Harness устраняет шумы между планированием и исполнением:
Заранее фиксирует цепочку инструментов без дополнительных вмешательств;
Результаты исполнения объективно проверяются классификатором, сигналы награды более ясны;
Обеспечивает возможность обучения планирования, избегая «просто выполнять, не планируя».
Выделяет задачу сжатия контекста как отдельную:
Модель на входе сжимает память, а качество выполнения задачи — стандарт оценки;
Цель — сохранить ключевую информацию без снижения успешности downstream-задач.
Для сверхдлинных сценариев (код, документация на миллионы токенов):
Главный агент не генерирует контент напрямую, а управляет подагентами, распределяя задачи и Prompt;
Подагенты параллельно выполняют, объединяют результаты, главный агент проверяет;
Использование Harness для контроля процессов, исключая конфликты чтения/записи и сбои.
Современные RL-процессы значительно усложняются, требуют оптимизации сразу шести модулей:
Без галлюцинаций при вызове инструментов, точной классификации, эффективного сжатия контекста, скоординированных нескольких агентов, разумного планирования и надежной валидации;
Индустрия движется от алгоритмической сходимости к многообразию подходов, каждый компонент требует собственной методики обучения, а объединение целей — главный вызов.
Это также меняет требования к специалистам. Prompt Engineering уже не является единственной ключевой компетенцией, поскольку хорошая реализация Harness покрывает 70% задач. Поэтому востребованность получит специалист с комбинированными знаниями в AI, бэкенд-инженерии и инфраструктуре, а чистые Prompt-инженеры потеряют часть конкурентных преимуществ.
Далее — перестройка рыночных структур. В условиях конкуренции со стороны производителей моделей и вертикальных решений остаются два пути: владение передовыми моделями и инфраструктурой или наличие уникальных данных и опыта в узкоспециализированных областях (например, высокочастотная торговля, отраслевые знания).
Третий тренд — внедрение Agent в приватных, высокозащищенных, полностью интегрированных системах. Для компаний важно использовать成熟шие решения Harness, адаптировать их под свои сценарии, сосредоточиться на безопасности и приватности для масштабного коммерческого внедрения.
Ключевая ценность утечки Claude Code — не в самом коде, а в том, что она показывает: Agent уже перешли в эпоху Harness-управляемых систем. Возможности модели — это база, а инженерная архитектура, среда выполнения, мультиагентное взаимодействие и механизмы валидации — это факторы, определяющие потенциал и лимит развития.