Интересно, как всё это началось. Когда стоимость API была очень низкой, все могли использовать без раздумий. Мы бросали документы из тысяч слов в подсказку без особых мыслей. Просили самую передовую модель выполнять глупые задачи, такие как капитализация первой буквы предложения. Почему? Потому что это было очень дешево, субсидировалось крупными инвесторами. Но эта субсидия сейчас закончилась.

Это изменение — не только о росте цен на панели управления. Это фундаментальный сдвиг в том, как мы должны думать об инфраструктуре ИИ. Потребление токенов, которое раньше игнорировалось, теперь становится критическим элементом в любой точке затрат. Один вызов API может стоить тысячи рупий при большом объеме. Представьте стартап, обрабатывающий миллионы запросов в день — это уже не вопрос опциональности, а вопрос выживания.

Есть три места, где наши токены действительно исчезают незаметно. Первое — слишком длинный системный промпт. Мы любим писать очень подробные инструкции для стабильности вывода, но каждое такое указание — это оплачиваемый токен. Каждый разговор требует пересчета этих тысяч токенов. Второе — RAG, вышедший из-под контроля. Идеальный RAG — взять три наиболее релевантных предложения и спросить модель. Реальность? База данных вытягивает десять длинных PDF на тысячи слов и сразу же загружает их в модель. Мы думаем, что задаем простой вопрос, а модель должна читать полную библиотеку. Третье — агент, застрявший в бесконечном цикле. Если логика плохая и API недоступен, агент может крутиться бесконечно, а каждый цикл — это дорогой по токенам вывод.

Теперь самое интересное — как выбраться из этой ямы? Есть три оружия, которые сейчас становятся необходимыми, а не опциональными. Семантический кэш может стать прорывом, потому что вопросы пользователя повторяются. Если пользователь спрашивает «как сбросить пароль» много раз, мы можем кэшировать ответ и возвращать его сразу, без обращения к большой модели. Из секунд — в миллисекунды, и нулевая стоимость токенов. Сжатие промптов с помощью алгоритма на основе энтропии позволяет сжать текст с 1000 до 300 токенов без потери смысла. Пусть машина общается с машиной на странных языках, которые человек не понимает. Механизм внимания модели достаточно силен, чтобы понять это. Мы экономим 70% затрат.

Но самое продвинутое — маршрутизация моделей. Не все задачи к самой дорогой модели. Простое извлечение сущностей? Маршрутизируем на Llama 3 8B или Claude Haiku — очень дешево. Сложное рассуждение и код? Только GPT-4o или Claude Sonnet. Это как компания с высокой эффективностью — ресепшионист не мешает CEO заниматься простыми делами. Кто сможет реализовать такой механизм маршрутизации гладко, тот сможет снизить стоимость токенов до трети по сравнению с конкурентами.

Если взглянуть на передовые фреймворки агентов, такие как OpenClaw и Hermes, они уже опережают тренд. OpenClaw одержим контролем токенов. Вместо полного стекания контекста он заставляет модель выдавать строго структурированный JSON или более компактный формат. Не «говори свободно», а «отправь форму». Это элегантная операция по сохранению данных в условиях дефицита вычислений. Hermes использует другой подход — динамическую память. Рабочая память хранит только последние 3-5 разговоров. Если превышает — легкая модель подытоживает старое общение в ключевые моменты и сохраняет их в векторной базе данных. Это не мусоросбор, а хирургическая операция памяти. Тонкое управление контекстом значительно снижает вычислительные затраты на макроуровне.

Но есть более фундаментальный сдвиг в мышлении, чем все эти технические решения. В эпоху дешевых ресурсов мы воспринимаем токены как потребительский продукт — видим скидку и сразу добавляем в корзину. Многие компании случайно интегрируют LLM в внутренние системы, дают доступ всем сотрудникам, даже заказывают AI для генерации меню в столовой. Итог? Шок по счету в конце месяца.

Теперь нужно менять мышление на инвестиционное. Каждый потраченный токен — это инвестиция, и нужно считать ROI. Что возвращается? Увеличение скорости закрытия тикетов? Снижение времени исправления багов? Или просто ответ «ха-ха, AI смешной»? Если функция с правилом стоит всего 0.1 юаня, а интеграция LLM — 1 юань, и при этом улучшение конверсии всего 2%, — лучше отказаться. Не стоит гоняться за большой фантазией AI, лучше перейти к целенаправленному подходу с точной точностью. Каждый токен нужно воспринимать как золото, которое нужно ковать.

В конце концов, рост затрат — не кризис, а очищение. Это ломающий пузырь, созданный бесконечной субсидией, и возвращение всех к реальности. Это устраняет игроков, которые умеют только писать промпты и крутиться вокруг, передавая эстафету ядру команды, которое действительно понимает архитектуру, маршрутизацию моделей и способы максимизации вычислений на периферийных устройствах. Когда вода уходит, мы увидим, кто плавает голышом. И сейчас выживут и преуспеют те, кто воспринимает каждый токен как ценное ресурс, уверенные, что получают больше, чем тратят. Они станут доминировать в следующей эпохе инфраструктуры ИИ.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
298.95K Популярность
#
比特币Breaks79K
11.7M Популярность
#
IsraelStrikesIranBTCPlunges
34.66K Популярность
#
CryptoMarketsRiseBroadly
100.21K Популярность
#
WHCADinnerShootingIncident
22.77K Популярность

Закрепить

Карта сайта

Популярные темы

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Закрепить