2026-04-24 23:11:57

迹象已经很明显，免费时代已经结束。两年前，我们生活在一个美丽的幻想中，计算能力就像自来水一样源源不断。现在？每个令牌都有价格，而且价格大幅上涨。

有趣的是，这一切是如何开始的。API费用还非常低廉时，大家都可以随意使用。我们把数千字的文档扔进提示中，毫不犹豫。让最先进的模型完成一些愚蠢的任务，比如大写句子第一个字母。为什么？因为成本非常低，由巨头投资者补贴。但这种补贴现在已经结束。

这种变化不仅仅是仪表盘上的价格上涨。这关乎我们对AI基础设施的根本思考转变。曾经被忽视的令牌消耗，现在成为任何成本中心的关键项目。一通API调用可能价值数千卢比，如果请求量很大。想象一下每天处理数百万请求的创业公司——这不再是可选的担忧，而是生存问题。

有三个地方，我们的令牌会悄无声息地流失。第一，系统提示过长。我们喜欢写非常详细的指令以确保输出稳定，但每个指令都是付费的令牌。每次对话都要重新计算数千个令牌。第二，RAG失控。理想中的RAG是提取三句最相关的内容，然后问模型。现实中？数据库提取十个长达数千字的PDF，然后全部扔给模型。我们以为只是问简单问题，实际上模型被要求阅读半个图书馆。第三，代理陷入无限循环。如果逻辑不好，API宕机，代理就会不断旋转，每次迭代都消耗昂贵的输出令牌。

现在，进入一个有趣的部分——我们如何摆脱这个困境？有三种武器现在变得必不可少，不再是可选的。语义缓存可能成为游戏规则的改变者，因为用户的问题具有重复性。如果用户反复问“怎么重置密码”，我们可以缓存答案，直接返回，无需调用大模型。从秒级变成毫秒级，成本为零。基于熵的算法压缩提示，可以将1000个令牌的文本压缩到300个而不失去意义。让机器用人类听不懂的奇怪语言相互交流。模型的注意力机制足够强大，能理解这些内容。这样可以节省70%的成本。

但最复杂的技术是模型路由。不要把所有任务都交给最贵的模型。简单的实体提取？路由到Llama 3 8B或Claude Haiku这样便宜的模型。复杂推理和代码？用GPT-4o或Claude Sonnet。就像高效的公司——接待员不用打扰CEO处理简单事务。谁能顺畅实现这个路由机制，就能将令牌成本降低到竞争对手的三分之一。

如果看前沿的代理框架，比如OpenClaw和Hermes，它们已经走在前沿。OpenClaw对令牌控制非常执着。它不堆叠完整上下文，而是强制模型输出严格的JSON格式或更紧凑的格式。这不是“自由交谈”，而是“提交表单”。这是在计算资源紧张中优雅的数据节省操作。Hermes采用另一种方法——动态内存机制。工作内存只保存最近的3-5次对话。如果超出，轻量级模型会总结旧对话的核心点，然后存入向量数据库。这不是垃圾处理，而是外科手术式的记忆操作。细腻的上下文管理大幅降低宏观层面的计算成本。

但比所有这些技术方案更根本的，是一种思维转变。在廉价时代，我们用消费者心态对待令牌——看到折扣就直接加入购物车。许多公司随意将LLM集成到内部系统，赋予所有员工访问权限，甚至让餐厅菜单由AI生成。结果？月底账单震惊。

现在必须转变为投资心态。每一枚令牌的花费都是一项投资，必须计算ROI。花掉这些令牌，回报是什么？工单关闭率提高？Bug修复时间缩短？还是只得到一句“哈哈，AI很有趣”？如果用规则引擎的功能只花0.1元，但集成LLM要花1元，转化率提升只有2%，那就直接放弃。不要追逐大规模AI的幻想，转而采用目标精准的方法。每个令牌都要像锻造黄金一样被珍视。

最终，这次成本的上升不是危机，而是净化。这打破了由无限补贴创造的泡沫，迫使所有人回归现实。这也淘汰了那些只会写提示、四处晃荡的表面玩家，把核心团队推向前沿，真正理解架构、模型路由，以及如何最大化边缘设备的计算能力。当潮水退去，我们才能看到谁在裸泳。这一次，能存活并繁荣的，都是那些把每个令牌当作珍贵资源、相信自己能获得更多回报的人。他们将主导下一代AI基础设施的格局。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
WCTC交易王PK
35.84万热度
#
加密市场小幅下跌
26.37万热度
#
Polymarket每日热点
69.63万热度
#
Strategy吸筹速度超挖矿两倍
13947.25万热度
#
GateCard一拍即付
2.24万热度

迹象已经很明显，免费时代已经结束。两年前，我们生活在一个美丽的幻想中，计算能力就像自来水一样源源不断。现在？每个令牌都有价格，而且价格大幅上涨。

热门话题

WCTC交易王PK

加密市场小幅下跌

Polymarket每日热点

Strategy吸筹速度超挖矿两倍

GateCard一拍即付

置顶