Я заметил кое-что интересное, происходящее на рынке ИИ за последние месяцы. Праздник закончился. Тот период, когда крупные компании финансировали всё и мы могли использовать токены, как проточную воду? Остался в прошлом.



Два года мы жили в комфортной иллюзии. OpenAI, Anthropic и другие гиганты сжигали деньги инвесторов, чтобы субсидировать наше использование. Тогда что мы делали? Отправляли огромные подсказки, тысячу слов в тексте, просили GPT-4 выполнять смешные задачи, которые решала бы простая правило. Потому что это было дешево. Потому что не нужно было думать о расходах.

Но теперь реальность стучится в дверь. Токены стали настоящей валютой. Каждое слово, каждый пробел, каждый знак препинания — всё имеет цену. И когда начинаешь масштабировать, когда твой ежедневный объем поднимается до миллионов или миллиардов вызовов, тот «1K токен» — ничтожное число — превращается в кровотечение, которое никто не может остановить.

Проблема в том, что большинство компаний не понимает, где именно тратятся деньги. Люди смотрят на растущие ежемесячные счета и не знают, что делать.

Возьмем: ты вежлив при общении с ИИ? «Здравствуйте, не могли бы вы помочь мне? Большое спасибо...» Вот и всё. Каждый «пожалуйста» и «спасибо» — это токен, за который взимается плата. Модели не имеют эмоций, им не нужна воспитанность. Еще более страшны огромные системные подсказки, которые создают разработчики для обеспечения стабильности. Тысяча инструкцийных токенов пересчитывается в каждом диалоге. Чистое расточительство.

Затем идет неконтролируемый RAG. В теории он идеален: извлекает три наиболее релевантных документа и готово. На практике? Векторная база данных вытягивает десять PDF-файлов, каждый по десять тысяч слов, и засовывает всё в модель. «Разбирайся сам», — думает разработчик. В результате модель читает полбиблиотеки, а ты платишь за каждую страницу.

И я даже не начну с агентов, застрявших в бесконечных циклах. Это черная дыра для токенов. Если API падает или логика заходит в тупик, агент крутится без остановки, потребляя токены вывода — которые стоят в несколько раз дороже входных. Твой кредитный лимит истощается, пока ты спишь.

Но вот что интересно: индустрия просыпается и ищет решения. Семантический кэш — самый очевидный. Вопросы пользователей по своей природе повторяются. «Как сбросить пароль?» задается тысячи раз. Зачем каждый раз вызывать GPT-4? Семантический кэш преобразует вопрос в вектор, ищет совпадения с предыдущими вопросами, и если что-то похожее находится, возвращает сразу из кэша. Никаких токенов не тратится. Задержка падает с секунд до миллисекунд. Это не только экономия, это изменение масштаба в опыте.

Далее — сжатие подсказок. Не вы вручную удаляете слова. Алгоритмы, основанные на энтропии информации, могут определить, что важно, а что — шум. Они могут сжать текст из тысячи токенов до трехсот, сохранив смысл. Машины общаются между собой в так называемом «марсианском тексте», который мы не понимаем, но модель — вполне. Вы экономите 70% на тарифах.

Но настоящая революция — маршрутизация моделей. Не загружайте всё в самую дорогую модель. Простое извлечение сущностей, перевод, преобразование формата? Отправляйте в Llama 3 8B, работающую локально, или в Claude 3 Haiku. Почти без стоимости. Глубокое рассуждение, сложное программирование? Тогда вызывайте GPT-4 или Claude 3.5 Sonnet. Это как эффективная компания: ресепшионист решает простые запросы, CEO занимается стратегией. Кто сможет реализовать это хорошо, снизит общие затраты на токены в десять раз по сравнению с конкурентами.

Что меня еще впечатляет — это такие фреймворки, как OpenClaw и Hermes, уже работающие в этой реальности. OpenClaw — одержим эффективностью. Не использует грубый подход — загружает весь контекст. Заставляет модель выдавать структурированный вывод — строгий JSON, бинарные форматы. Удаляет избыточные символы в процессе генерации. ИИ не «разговаривает», он «выдает таблицу». Кажется простым, но это элегантный трюк по экономии данных.

Hermes идет другим путем. Динамическая память. Хранит только последние 3-5 раундов диалога в рабочей памяти. Когда лимит превышен, легкая модель резюмирует всё в нескольких ключевых фразах и сохраняет в векторной базе. Знания остаются, история — удаляется. Это как хирургическая операция памяти, а не мусор, выбрасываемый на помойку.

Но знаете, какая самая важная ментальная перемена? Перестать считать токены расходом и начать думать о ROI. Каждый потраченный токен — инвестиция. Какой возврат? Увеличился ли процент закрытых тикетов? Сократилось ли время исправления ошибок? Или это просто бессмысленная фраза?

Если одна функция стоит 0,1 юаня по традиционным правилам, а стоит 1 юань при использовании крупной модели с увеличением конверсии всего на 2%, — смело отказывайтесь. Перестаньте гоняться за образом «большого и всеобъемлющего» ИИ и переходите к «маленькому и элегантному». Учитесь говорить «нет» бизнес-подразделениям.

Это антиклимакс, я знаю. Кажется очень старомодно. Но именно так индустрия ИИ созреет. Это не киберпанк, а скорее управление обычным супермаркетом. Считая каждый токен, как владелец магазина считает каждый товар.

В конце, когда волна спадет, обнаружат, кто был голым. И на этот раз спад — это волна субсидий. Только те, кто научится превращать каждую каплю токена в золото, будут готовы к тому, что грядет.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить