为什么去中心化计算是人工智能发展的关键驱动力?

进阶1/7/2025, 6:46:55 AM
今天的文章探讨了加密领域中新兴但常被误解的去中心化计算板块。我们深入分析了AI基础设施领域,以了解去中心化替代方案在实际中可以竞争的领域。

转发原文标题:《去中心化计算》

今天的文章探讨了加密领域中新兴但常被误解的去中心化计算板块。我们深入分析了AI基础设施领域,以了解去中心化替代方案在实际中能够竞争的领域。

我们将探讨以下问题:ASI是否可以在分布式网络上训练?加密网络具有什么独特优势?以及为何无许可的计算基础设施可能会像比特币之于金融一样,成为AI领域的关键组成部分。

文章中一个常见的主题是AI领域的指数级增长——无论是投资、计算能力还是技术发展。这与加密市场和大众关注度的复苏相呼应。我们对这两大技术浪潮的交汇点感到非常兴奋。

你好!

在一个阳光明媚的日子里,田纳西州孟菲斯市上空,一架螺旋桨间谍飞机反复盘旋在一座工业建筑上空,机上的乘客疯狂地拍摄下方的设施。这并不是冷战间谍活动的场景,而是发生在2024年的一幕。目标不是军事设施或铀浓缩基地,而是一座曾经的家电工厂,现在这里容纳着世界上最强大的超级计算机之一。这些乘客并非外国特工,而是竞争数据中心公司的一些员工。

每隔几十年,一项具有变革性潜力的技术就会出现,能够毫无疑问地改变文明的轨迹。紧随其后的是世界上最强大的实体之间的竞争,争夺率先实现这一技术的先机。其回报巨大,而失败的后果可能是毁灭性的,这促使这些实体迅速调动他们所有的资源——人才和资本——全力掌控这项技术。

在20世纪,有两项技术符合这种定义——核武器和太空探索。对这两项技术的争夺主要集中在最强大的国家之间。美国在这两场竞赛中的胜利奠定了其作为世界主导超级大国的地位,开启了一个空前繁荣的时代。而对于失败的一方——纳粹德国和苏联,其后果则是毁灭性的,甚至是致命的。

位于美国田纳西州橡树岭的占地44英亩的K-25巨型工厂,是用于生产第一枚原子弹所需铀的地方(来源)。

美国的胜利付出了巨大的代价。曼哈顿计划耗资近20亿美元(约合现值300亿美元),雇用了超过12万人——相当于每千名美国人中就有一人参与其中。太空竞赛消耗的资源更为庞大。阿波罗计划在20世纪60年代花费了28亿美元(按今天的价值计算约为3000亿美元),并动员了超过40万人——相当于每490名美国人中就有一人参与。1966年鼎盛时期,NASA占据了整个美国联邦预算的4.4%。

阿波罗11号在执行登月任务前即将发射的画面(来源)。

2022年ChatGPT的发布标志着一场具有文明改变意义的新竞赛的开始——对人工超级智能(ASI)的追求。尽管人工智能已经融入日常生活——管理社交媒体动态、Netflix推荐和电子邮件垃圾过滤器,但大型语言模型(LLMs)的出现有望彻底改变一切:人类生产力、媒体创作、科学研究乃至创新本身。

这一次的竞争者不再是国家(至少目前不是),而是全球最大的公司(微软、谷歌、Meta、亚马逊),最炙手可热的初创公司(OpenAI、Anthropic)以及全球最富有的个人(埃隆·马斯克)。当科技巨头将前所未有的资本投入到构建训练更强大模型的基础设施时,初创公司也在吸引创纪录的风险投资资金。而埃隆·马斯克,则一如既往地做着他的“埃隆式”事情(受监视的数据中心属于他的公司xAI)。

然后,还有其他人——企业、中小公司和初创公司。他们或许无意构建人工超级智能(ASI),但迫切希望利用人工智能解锁的尖端能力来优化业务、颠覆行业或创造全新的领域。潜在的回报如此巨大,以至于每个人都在争相分一杯由机器智能驱动的新经济蛋糕。

AI革命的核心是其最重要的组件:图形处理器(GPU)。这种最初为电子游戏设计的专用计算芯片,如今已成为全球最炙手可热的商品。对GPU的需求如此之大,以至于企业常常需要忍受数月的等待,仅为了获得少量的芯片。这种需求让其主要制造商NVIDIA一跃成为全球市值最高的公司。

对于无法或不愿直接购买GPU的企业来说,租赁算力成为了次优选择。这推动了AI云服务提供商的兴起——这些公司运营着高度复杂的数据中心,专门满足AI热潮带来的计算需求。然而,需求的激增及其不可预测性意味着定价和可用性都无法得到保障。

我曾论述过,区块链是一种“科斯式”技术,旨在“润滑齿轮、铺平道路、加固桥梁”,以便其他颠覆性创新能够蓬勃发展。随着AI成为我们时代的变革力量,GPU获取的稀缺性和高昂成本成为了创新的障碍。一些区块链公司正在介入,试图通过基于区块链的激励机制来打破这些障碍。

在今天的文章中,我们首先从区块链领域退一步,审视现代AI基础设施的基本原理——神经网络如何学习,为什么GPU如此重要,以及当今的数据中心如何演变以应对前所未有的计算需求。接着,我们探讨去中心化计算解决方案,分析它们在哪些领域能够现实地与传统提供商竞争,加密网络的独特优势是什么,以及为何尽管它们无法带来通用人工智能(AGI),但仍然对于确保AI的惠及面具有重要意义。

让我们从GPU为何如此重要谈起。

GPU

这是《大卫》,一座高达17英尺、重达6吨的大理石雕像,由意大利文艺复兴时期的天才大师米开朗基罗创作。它描绘了《大卫与歌利亚》故事中的圣经英雄,以其对人体解剖结构的完美呈现以及对透视和细节的精妙把控,被视为不朽的杰作。

与所有大理石雕塑一样,《大卫》的起点是巨大的卡拉拉大理石毛坯。为了将它雕琢成最终壮丽的形态,米开朗基罗必须细致地一点点敲凿。从大刀阔斧地确定人体的基本轮廓,到逐步刻画出肌肉的曲线、静脉的紧张感以及眼神中微妙的决心,他逐渐追求越来越细腻的细节。米开朗基罗花了三年的时间,才将《大卫》从石头中“解放”出来。

但为什么在一篇关于人工智能的文章中谈论一座500年前的大理石雕像呢?

如同《大卫》,每一个神经网络最初也是一种纯粹的潜能——一组初始化为随机数(权重)的节点,像那块巨大的卡拉拉大理石毛坯一样没有形状。

这个原始模型反复地被输入训练数据——成千上万的输入与其正确输出配对的实例。每个通过网络的数据点都会触发成千上万次的计算。在每个节点(神经元)处,输入的连接会将输入值乘以连接的权重,求出这些乘积的总和,并通过“激活函数”转换结果,决定神经元的激活强度。

正如米开朗基罗会退后一步,评估他的作品并进行修正,神经网络也会经历一个精炼过程。每完成一次前向传播后,网络会将其输出与正确答案进行比较,并计算出误差范围。通过一种叫做反向传播的过程,它衡量每个连接对误差的贡献,并像米开朗基罗的凿刻一样,调整其权重值。如果某个连接导致了错误预测,它的影响力就会减小。如果它有助于得出正确答案,它的影响力则会增强。

当所有数据通过网络(每个数据点完成一次前向传播和反向传播步骤)后,就标志着一个“周期”(epoch)的结束。这个过程会重复多次,每次传递都会精炼网络的理解。在早期的周期中,权重变化剧烈,网络进行大范围的调整——就像最初的大刀阔斧的凿刻一样。在后期的周期中,变化变得更加微妙,细致地调整连接以达到最佳性能——就像最后的精细修饰揭示了《大卫》的细节。

最终,在成千上万次甚至百万次的迭代后,训练好的模型诞生了。就像《大卫》以完成的姿态自豪地伫立一样,神经网络从随机噪声转变为一个能够识别模式、做出预测、生成骑着滑板车的猫图像,或让计算机理解并用人类语言做出回应的系统。

为什么是 GPU?

米开朗基罗独自雕刻《大卫》,每次只能进行一次凿刻,每次都需要精确计算角度、力度和位置。这种精细的精准度是他花费三年时间完成这件杰作的原因。但想象一下,如果有成千上万的同样技艺高超的雕刻家在《大卫》上协调工作——一组团队雕刻头发的卷曲,另一组雕刻躯干的肌肉,数百人同时雕刻面部、手部和脚部的精细细节。如此并行的努力将把三年的工作压缩为几天。

类似地,尽管CPU强大且精确,但它们每次只能执行一个计算。训练一个神经网络并不需要单一复杂的计算,而是需要数亿次简单的计算——主要是在每个节点上的乘法和加法。例如,之前提到的神经网络样本,只有18个节点和大约100个连接(参数),可以在CPU上在合理的时间内完成训练。

然而,今天最强大的模型,如OpenAI的GPT-4,拥有1.8万亿个参数!即使是较小的现代模型也至少包含十亿个参数。逐一进行计算训练这些模型将需要数百年。这就是GPU的优势所在:它们能够同时执行大量简单的数学计算,理想地处理多个神经网络节点的并行计算。

现代GPU的性能令人震惊。例如,NVIDIA最新的B200 GPU包含超过2000亿个晶体管,并支持每秒进行2250万亿次并行计算(2,250 TFLOPS)。单个B200 GPU能够处理最多7400亿个参数的模型。这些机器代表了现代工程的壮举,这也解释了为什么NVIDIA以每个40,000美元的价格销售每台单位,并在五年内其股价暴涨了2500%以上。

黄仁勋展示NVIDIA B200

即便是这些强大的机器,也无法单独完成AI模型的训练。回想一下,在训练过程中,每个数据实例必须单独通过模型进行前向和后向循环。现代的大型语言模型(LLM)是在涵盖整个互联网的数据集上进行训练的。例如,GPT-4处理了大约12万亿个令牌(约9万亿个单词),而下一代模型预计将处理多达100万亿个令牌。仅使用单个GPU处理如此庞大的数据量,仍然需要几个世纪的时间。

解决方案在于增加另一层并行性——创建GPU集群,将训练任务分配给多个GPU,使它们作为一个统一的系统进行工作。模型训练的工作负载可以通过三种方式进行并行化:

数据并行性:多个GPU各自维护一个完整的神经网络模型副本,同时处理不同部分的训练数据。每个GPU独立处理分配的数据批次,然后定期与其他GPU同步。在这个同步期间,GPU之间相互通信,以找出它们权重的集体平均值,并更新各自的权重,使它们保持一致。因此,GPU会继续在各自的数据批次上独立训练,直到再次进行同步。

随着模型的增大,单一副本可能变得太大,无法放入一个GPU。例如,最新的B200 GPU最多只能容纳7400亿个参数,而GPT-4则是一个拥有1.8万亿参数的模型。在这种情况下,单个GPU之间的数据并行性是不可行的。

张量并行性:这种方法通过将每个模型层的工作和权重分配到多个GPU来解决内存限制。GPU在每次前向传播和反向传播步骤中与整个集群交换中间计算结果。这些GPU通常被分组在八个单元的服务器中,通过NVLink连接——NVIDIA的高速直接GPU对GPU互连。这种设置要求GPU之间具有高带宽(高达400 Gb/s)和低延迟的连接。张量集群有效地作为一个单一的大型GPU运行。

流水线并行性:这种方法将模型拆分到多个GPU,每个GPU处理特定的层。数据按顺序流经这些GPU,就像接力赛中的每个跑者(GPU)管理自己的部分,然后传递接力棒。流水线并行性特别适合将不同的8-GPU服务器连接在数据中心内,使用高速InfiniBand网络进行服务器间通信。虽然它的通信需求超过了数据并行性,但仍低于张量并行性中GPU之间频繁交换数据的需求。

现代集群的规模令人瞩目。GPT-4,拥有1.8万亿个参数和120层,训练时需要25,000个A100 GPU。这个过程花费了三个月,费用超过6000万美元。A100已经是两代前的产品;如果使用今天的B200 GPU,仅需约8,000个单位和20天的训练时间。这再次展示了AI发展的速度。

但GPT-4级别的模型如今已经显得过时。下一代先进模型的训练正在进行,数据中心里托管着由10万个B100或H100 GPU组成的集群(后者是前一代产品)。这些集群仅GPU资本开支就超过40亿美元,它们是人类最强大的超级计算机,提供的计算能力至少是政府拥有的超级计算机的四倍。

除了确保原始计算能力,ASI(人工超级智能)追求者在尝试设置这些集群时还会遇到另一个问题:电力。每个GPU消耗700瓦的电力。将10万个GPU结合在一起,整个集群(包括支持硬件)将消耗超过150兆瓦的电力。为便于理解,这个消耗相当于一个30万人口的城市——类似于新奥尔良或苏黎世。

疯狂的程度不仅仅如此。大多数ASI追求者相信,LLM(大型语言模型)扩展法则——即随着模型大小、数据集大小和训练计算量的增加,模型性能将可预测地改善——将继续成立。更强大的模型训练计划已经在进行中。到2025年,每个训练集群的成本预计将超过100亿美元;到2027年,超过1000亿美元。随着这些数字接近美国政府在阿波罗计划中的投资,显而易见,为什么实现ASI已经成为我们这个时代的定义性竞赛。

从 GPT-5 开始的模型的指标是估计值

随着集群规模的扩大,电力消耗成比例增加,明年的训练将需要超过1GW的电力。再过一年,将需要10GW或更多。随着这一扩展没有减缓的迹象,预计到2030年,数据中心将消耗全球约4.5%的电力。现有的电力网络已经难以满足当前模型的需求,无法为未来的集群提供足够的能源。这提出了一个关键问题:这些电力将从哪里来?大科技公司正在采取双管齐下的策略。

从长远来看,唯一可行的解决方案是ASI追求者自给自足,生产自己的电力。考虑到它们的气候承诺,这些电力必须来自可再生能源。核能作为主要解决方案脱颖而出。亚马逊最近以6.5亿美元购买了一个由核电厂提供电力的数据中心园区。微软已经聘请了一位核技术负责人,并正在重启历史悠久的三英里岛核电厂。谷歌已从加利福尼亚的Kairos Power收购了多个小型核反应堆。OpenAI的Sam Altman支持了HelionExowattOklo等能源初创公司。

微软正在重启三英里岛核电厂(图片来源

尽管核能的种子正在现在播种,但其果实(或电力)需要几年才能成熟。那么,如何解决当代模型的能源需求呢?临时解决方案是通过多个数据中心进行分布式训练。微软和谷歌等公司正将他们的训练集群分布在多个地点,而不是将巨大的电力需求集中在一个地方。

当然,挑战在于如何让这些分布式系统高效协作。即使是光速,数据从美国东海岸到西海岸的往返大约需要43毫秒——在计算机术语中,这是一个漫长的时间。此外,如果某个芯片滞后,例如滞后10%,那么整个训练过程的速度都会以同样的幅度减慢。

解决方案是通过高速光纤网络将不同地点的数据中心连接起来,并应用前面提到的多种并行化技术来同步它们的操作。张量并行性应用于每台服务器内的GPU,使它们能够作为一个单独的单元工作。管道并行性则应用于同一数据中心内的服务器链接,因其网络需求较低。最后,位于不同地点的数据中心(被称为“岛屿”)通过数据并行性定期同步信息。

之前我们提到,数据并行性对于单个GPU来说效果不好,因为它们无法独立容纳大规模模型。然而,当我们并行化的是每个包含数千个GPU的岛屿,而非单个单元时,这一动态发生了变化。训练数据被分布到每个岛屿,并通过相对较慢的光纤连接(与NVLink和Infiniband相比)定期同步这些岛屿。

数据中心

让我们将重点从训练和GPU转移到数据中心本身。

二十年前,亚马逊推出了Amazon Web Services(AWS)——这是历史上最具变革性的业务之一,并创造了一个名为云计算的全新行业。如今,云计算行业的领导者(亚马逊、微软、谷歌和甲骨文)享有稳固的市场主导地位,年收入接近3000亿美元,利润率在30%到40%之间。现在,AI的兴起为这个长期保持寡头垄断市场带来了新的机会。

GPU密集型的AI数据中心与传统数据中心在物理需求、技术复杂性和经济性方面有着显著的差异。

我们之前讨论过GPU的高能耗,这使得AI数据中心的功率密度大大增加,因此也产生更多的热量。传统的数据中心使用巨大的风扇(空气冷却)来散热,但这种方法对AI设施来说既不充分,也不具备经济可行性。相反,AI数据中心正在采用液冷系统,其中水块直接连接到GPU和其他高温组件,以更高效、安静地散热(B200 GPU自带这种架构)。支持液冷系统需要增加大型冷却塔、集中式水系统设施以及用于输送水到各GPU的管道,这是对数据中心基础设施的根本性改造。

除了更高的能耗外,AI数据中心还有独特的负载需求。传统数据中心保持可预测的电力消耗,而AI工作负载的功率使用模式波动性更大。这种波动性发生在GPU周期性地在100%负载和几乎停止之间切换,这发生在训练达到检查点时,此时权重要么存储到内存中,要么像我们之前看到的那样,与其他岛屿同步。AI数据中心需要专门的电力基础设施来应对这些负载波动。

构建GPU集群比构建常规计算云更为复杂。GPU需要非常快速地相互通信。为此,它们必须非常紧密地排列在一起。一个典型的AI设施需要超过200,000条特殊电缆,称为InfiniBand连接。这些电缆让GPU之间可以通信。如果其中一条电缆出现故障,整个系统都会停摆。直到该电缆修复,训练过程才会继续进行。

这些基础设施需求使得传统数据中心几乎无法通过简单的升级改造来适配高性能GPU并使其支持AI。这种升级将需要几乎完全的结构重建。因此,各公司正在从头开始建设专为AI设计的新数据中心,不同的组织在不同规模上进行这一建设。

在这一领域,领先的科技公司正在争相建设自己的AI数据中心。Meta正在大力投资专门为其自身AI开发而建的设施,将其视为直接的资本投资,因为它不提供云服务。微软正在建设同样庞大的数据中心,以支持其自己的AI项目,并为OpenAI等重要客户提供服务。甲骨文也积极进入这一领域,并将OpenAI作为重要客户。亚马逊继续扩大其基础设施,特别是为了支持像Anthropic这样的新兴AI公司。埃隆·马斯克的xAI则选择建立自己的100,000个GPU集群,避免依赖其他公司。

xAI的100,000 H100 GPU数据中心内部(图片来源

除了现有的大公司外,”新云”也在崛起——这些是专门为AI工作负载提供GPU计算的云服务提供商。这些新云根据规模分为两类。

大型新云提供商,包括CoreWeaveCrusoeLLama Labs,运营着超过2,000个GPU的集群。它们与传统云服务提供商的区别有两个方面:提供定制化的基础设施解决方案,而非标准化的套餐,并且要求长期客户承诺,而不是按使用付费的安排。

它们的商业模式利用这些长期合同和客户的信用状况来确保基础设施融资。收入来自为专门服务收取的高额费用,利润则来自低融资成本与客户支付之间的差额。

这种安排通常是如何运作的:一个新云提供商与一家资金充裕的AI初创公司签订三年合同,提供10,000个H100 GPU,月费为4,000万美元。通过这个每月收入1.44亿美元的保证收入流,提供商获得了有利的银行融资(6%的利率),以购买并安装价值7亿美元的基础设施。每月的收入4,000万美元覆盖了1,000万美元的运营成本和2,000万美元的贷款偿还,产生了1,000万美元的月度利润,而初创公司则获得定制的专用计算能力。

这种模式要求极其谨慎地选择客户。提供商通常寻找具有大额现金储备或强大风险投资支持的公司——通常是估值5亿美元或以上的公司。

小型新云提供商提供2,000个或更少GPU的集群,面向AI市场的不同细分群体——小型和中型初创公司。这些公司通常训练较小的模型(最多70亿参数)或对开源模型进行微调。(微调是将基础模型适应特定用例的过程。)这两种工作负载需要适度但专用的计算能力,且时长较短。

这些提供商提供按需计算,按小时收费,提供固定时长的不间断集群访问。虽然这比长期合同更贵,但它为初创公司提供了灵活性,让它们可以在不需要签订数百万美元协议的情况下进行实验。

最后,除了云巨头和新云提供商外,我们还有AI基础设施空间的中介平台和聚合商。这些中介平台不拥有GPU基础设施,而是将计算资源的所有者与需要这些资源的客户连接起来。

平台提供商如HydraHostFluidstack充当GPU计算的Shopify。就像Shopify使商家能够启动在线商店而不必构建电商基础设施一样,这些平台允许数据中心运营商和GPU拥有者提供计算服务,而不必开发自己的客户接口。它们提供运行GPU计算业务的完整技术包,包括基础设施管理工具、客户配置系统和计费解决方案。

市场聚合商如Vast.ai则充当GPU世界的Amazon。它们创建了一个市场,将来自不同提供商的多样化计算资源结合起来——从消费者级的RTX显卡到专业级的H100 GPU。GPU所有者列出他们的资源,并附上详细的性能指标和可靠性评分,而客户则通过自助平台购买计算时间。

推理

到目前为止,我们的讨论主要集中在训练(或微调)模型。然而,一旦模型训练完成,就必须将其部署以服务最终用户,这个过程被称为推理。每次你与ChatGPT对话时,实际上是在使用运行推理工作负载的GPU,这些工作负载接收你的输入并生成模型的回应。让我们再回到讨论大理石雕像的比喻。

这是大卫像——不是米开朗基罗的原作,而是1857年为伦敦维多利亚和阿尔伯特博物馆委托制作的石膏铸像。米开朗基罗在佛罗伦萨花费了三年时间,仔细雕刻大理石以创作原作,而这座石膏铸像则是通过直接模制获得的——完美地再现了米开朗基罗雕刻的每一个曲线、角度和细节。创作性的工作只进行了一次,之后就变成了忠实复制这些特征。今天,大卫像的复制品无处不在,从博物馆的大厅到拉斯维加斯的赌场庭院都有它的身影。

这正是AI推理的工作方式。训练一个大型语言模型就像米开朗基罗的原作雕刻过程——计算密集、耗时且资源需求大,因为模型通过数百万次细微调整逐渐学习语言的正确“形状”。但使用训练好的模型——推理——更像是在制作复制品。当你与ChatGPT对话时,你并不是在从零开始教它语言,而是在使用一个已经完美调整的模型副本(就像大卫的精准曲线和角度一样)。

推理工作负载与训练有根本的不同。训练需要大规模、密集的最新GPU集群(如H100)来处理密集的计算,而推理则可以在单个GPU服务器上使用较老的硬件(如A100,甚至是消费者级的显卡)运行,从而显著降低成本。尽管如此,推理工作负载仍然有其独特的需求:

  • 广泛的地理覆盖:模型需要在多个数据中心部署,以确保新加坡的用户和旧金山的用户获得同样快速的响应。
  • 高可用性:与训练可以暂停和恢复不同,推理需要24/7全天候可用,因为用户期望随时获得即时响应。
  • 冗余:需要多个服务器随时准备处理请求,以防某些服务器出现故障或过载。

这些特点使得推理工作负载非常适合使用现货定价模型。在现货定价下,GPU资源通常以比按需定价低30-50%的显著折扣提供——但服务可能会在高优先级客户需要资源时暂停。这个模型非常适合推理,因为冗余部署可以在中断时迅速将工作负载切换到可用的GPU上。

在GPU和AI云计算的背景下,我们现在可以开始探讨加密货币如何融入其中了。让我们(终于)开始吧。

加密技术的定位

项目和报告经常引用彼得·蒂尔(Peter Thiel)的观点,即“人工智能是集中的,加密技术是去中心化的”来讨论加密技术在AI训练中的作用。尽管蒂尔的说法无疑是正确的,但我们刚刚看到大量证据表明大科技公司在训练强大AI方面拥有明显的优势——这一观点常被错误引用,以暗示加密技术和去中心化计算是对抗大科技公司影响力的主要解决方案。

这种说法类似于之前关于加密技术将彻底改变社交媒体、游戏以及无数其他行业的夸大言论。这些说法不仅无益,接下来我将说明,它们在短期内至少是不现实的。

相反,我将采取一种更务实的方式。我假设一个寻求计算资源的AI初创公司并不关心去中心化的原则或对大科技公司的意识形态对抗。他们面对的问题是——如何以最低的成本获得可靠的GPU计算资源。如果一个加密项目能比非加密方案提供更好的解决方案,他们就会选择使用它。

为此,我们首先需要了解加密项目的竞争对手是谁。之前我们已经讨论过不同类别的AI云提供商——大科技公司和超大规模供应商、大型新云、小型新云、平台提供商和市场平台。

去中心化计算(如所有DePIN项目)背后的基本论点是,当前的计算市场效率低下。GPU需求异常高涨,而供应则分散在全球各地的数据中心和个人家中且未被充分利用。该领域的大多数项目通过整合这些分散的供应来减少低效问题,直接与市场平台竞争。

在此基础上,让我们看看这些项目(以及计算市场平台总体)如何在不同的AI工作负载中提供帮助——包括训练、微调和推理。

训练

首先,需要明确的是,ASI(人工超级智能)不会在一个去中心化的GPU全球网络上进行训练,至少在当前的AI发展路径上不会如此。以下是原因。

之前我们已经讨论过基础模型集群的规模有多庞大。仅仅是开始具备竞争力,你就需要世界上10万个最强大的GPU。而且,这一数字每年都在增长。预计到2026年,一次训练的成本将超过1000亿美元,可能需要一百万个以上的GPU。

只有那些拥有大型新云支持和直接与Nvidia合作关系的大科技公司才能组建这样规模的集群。请记住,这是争夺ASI的竞赛,所有参与者都高度动机充足且资金充裕。如果有额外的大量GPU供应(实际上并没有),这些公司也会是首先抢购的对象。

即使某个加密项目奇迹般地聚集了所需的计算资源,去中心化ASI开发仍面临两个根本性障碍:

首先,GPU仍需连接成大型集群才能有效运作。即使这些集群分布在城市中的不同区域,它们也必须通过专用光纤线路连接。在去中心化环境下,这两者都难以实现。除了获取GPU外,建立AI专用数据中心需要周密的规划——通常需耗时一到两年。(xAI在短短122天内完成了,但埃隆·马斯克短期内似乎不会推出任何代币。)

其次,仅仅创建一个AI数据中心并不足以诞生超级智能AI。正如Anthropic创始人Dario Amodei最近所解释的,AI的扩展类似于化学反应。化学反应需要多种试剂按精确比例才能进行,AI扩展的成功同样依赖于三个关键要素的同步增长:更大的网络、更长的训练时间和更大的数据集。如果只扩大其中一个因素而忽略其他部分,整个过程就会停滞不前。

即使我们设法同时获得计算资源并让这些集群协同工作,为了让训练的模型足够优秀,我们仍然需要大量高质量的数据。没有大科技公司的专有数据源、签订数百万美元合同来获取网络论坛和媒体资源的资金,或生成合成数据的现有模型,要获得足够的训练数据几乎是不可能的。

最近有一些关于扩展法则可能进入平台期的猜测,认为大型语言模型(LLM)性能可能触顶。有些人将此视为去中心化AI开发的机会。然而,这忽略了一个关键因素——人才集中。当前的大科技公司和AI实验室聚集了全球顶尖的研究人员。任何通往AGI的突破性替代路径都可能来自这些中心。在竞争激烈的环境下,这类发现将被严密保密。

基于上述论点,我可以99.99%确定,ASI的训练——甚至是世界上最强大的模型——不会依赖去中心化的计算项目。那么,加密技术究竟能在哪些模型训练中发挥作用?

要在地理位置不同的GPU集群之间进行模型训练,我们需要在它们之间实现数据并行。(回想一下,数据并行是如何让不同的GPU岛屿分别处理训练数据块,并与彼此同步的。)模型规模越大,需要在这些岛屿之间交换的数据量就越大。对于拥有超过一万亿参数的前沿模型,其所需带宽足以需要专用光纤连接。

然而,对于较小的模型,带宽需求会按比例降低。最近在低通信训练算法方面的突破,尤其是延迟同步技术,为以去中心化方式训练小型到中型模型创造了希望。两个团队在这些实验性研究中处于领先地位。

Nous Research是一家AI加速器公司,也是开源AI开发的领导者。他们因Hermes系列语言模型和创新项目World Sim而知名。今年早些时候,他们运营了一个用于LLM排名的BitTensor子网,并通过发布DisTrO(基于互联网的分布式训练)项目,成功在去中心化环境中训练了一个1.2B参数的Llama-2模型,实现了857倍的GPU间带宽需求减少。

Nous Research 的 DisTrO 报告

Prime Intellect 是一家专注于大规模去中心化 AI 基础设施开发的初创公司,致力于聚合全球计算资源,通过分布式系统实现最先进模型的协作训练。他们的 OpenDiLoCo 框架(实现了 DeepMind 的分布式低通信方法)成功在跨越两个大洲和三个国家的环境下训练了一个十亿参数的模型,同时保持了 90-95% 的计算资源利用率。

那么,这些去中心化的训练过程是如何运作的?

传统的数据并行方法要求 GPU 在每一步训练后共享并平均其权重,这在互联网连接环境下几乎不可能实现。而这些项目允许每个 GPU“岛屿”独立训练数百步后再进行同步。可以将其想象为不同的研究团队共同参与同一个项目:他们不是不断互相汇报进度,而是在取得重大进展后才分享成果。

DisTrO 和 OpenDiLoCo 每 500 步才同步一次,并采用双优化器方法:

  • “内层”优化器处理每个 GPU 上的本地更新,就像一个团队在做局部发现
  • “外层”优化器管理 GPU 之间的周期性同步,像是一个协调人整合所有发现

在同步时,他们并非分享所有权重,而是共享“伪梯度”——即当前权重与上次同步权重之间的差异。这种方法非常高效,就像只分享文档的更改部分,而非每次都发送整份文档。

Prime Intellect 的 INTELLECT-1 是 OpenDiLoCo 的实际应用,进一步推动了这一方法,正在训练一个 100 亿参数的模型——这是迄今为止最大规模的去中心化训练尝试。他们引入了关键优化措施,例如:

  • 压缩需要共享的数据,大幅提升通信效率
  • 内置备份系统,即使部分计算机脱机也能继续训练
  • 将同步过程的时间缩短到不到一分钟

INTELLECT-1 由分布在全球的 20 多个 GPU 集群共同训练,近期已完成预训练,并即将作为一个完全开源的模型发布。

INTELLECT-1 训练仪表板

Macrocosmos 这样的团队正在使用类似的算法在 Bittensor 生态系统中训练模型

如果这些去中心化训练算法能够持续改进,它们可能在下一代 GPU 的支持下,具备训练高达 1000 亿参数模型的能力。即使是这种规模的模型,也可以在许多用例中发挥重要作用:

  1. 用于研究和实验的新型架构,不需要前沿级计算资源
  2. 优化性能和速度的小型通用模型,而非追求纯粹的智能
  3. 针对特定领域的专用模型

微调

微调是指在一个预训练的基础模型(通常是 Meta、Mistral 或阿里巴巴发布的开源模型)基础上,使用特定数据集进一步训练,以适应特定任务或领域。这与从头开始训练相比所需的计算量要少得多,因为模型已经学习了通用的语言模式,只需调整权重以适应新的领域。

微调的计算需求随着模型规模增长而变化。假设使用 H100 进行训练:

  • 小型模型(1-7B 参数):单个 GPU,12 小时内完成
  • 中型模型(7-13B 参数):2-4 个 GPU 集群,36 小时内完成
  • 大型模型(>30B 参数):最多 8 个 GPU 集群,4 天内完成

根据这些规格,微调不需要之前讨论的复杂分布式训练算法。按需模型,即开发者短期租用 GPU 集群进行集中训练,可以很好地支持微调工作。具备充足 GPU 资源的去中心化计算市场在处理此类工作负载方面处于理想位置。

推理

推理是去中心化计算市场实现产品市场契合最清晰的路径。讽刺的是,在去中心化训练的讨论中,推理往往是最少被提及的工作流程。这主要有两个原因:一是推理缺乏“十万 GPU 神级模型”训练的吸引力,二是由于当前 AI 革命的阶段性特点。

截至目前,大部分计算资源确实都用于训练。通往 ASI 的竞赛导致了在训练基础设施上的大量前期投资。然而,随着 AI 应用从研究转向生产,这种平衡不可避免地会发生变化。为了使 AI 相关的商业模式可持续发展,从推理中产生的收入必须超过训练和推理的总成本。尽管训练 GPT-4 费用巨大,但那只是一次性成本。持续的计算开销——以及 OpenAI 通往盈利的路径——则依赖于向付费用户提供数十亿次推理请求服务。

计算市场,无论是去中心化的还是传统的,通过汇聚全球各种 GPU 型号(包括新旧 GPU),在推理工作负载中处于独特的有利位置。

计算市场在推理任务中天然具有优势:广泛的地理分布、持续的正常运行时间、系统冗余以及跨 GPU 代际的兼容性,这些特点与推理需求完美契合。

但为什么要加密呢?

我们已经讨论了去中心化计算可以和不能帮助的不同工作流程。现在,我们需要回答另一个重要问题:为什么开发者会选择从去中心化的提供商获取计算资源,而不是从中心化的提供商?去中心化解决方案提供了哪些具有吸引力的独特优势?

价格与范围

稳定币通过提供比传统跨境支付更优越的替代方案,实现了产品市场契合。其中一个重要因素是稳定币的成本更低!同样地,影响 AI 开发者选择云提供商的最大因素是成本。去中心化计算提供商要想具备竞争力,首先必须提供更具优势的定价。

计算市场,如同所有市场,是一个依赖网络效应的业务。平台上的 GPU 供应越多,客户的流动性和可用性就越高,从而吸引更多需求。随着需求的增长,这进一步激励更多 GPU 拥有者加入网络,形成一个良性循环。供应的增加还通过更优匹配和减少闲置时间来实现更具竞争力的定价。当客户能够以有吸引力的价格持续获得所需的计算资源时,他们更可能在平台上建立长期的技术依赖,从而进一步增强网络效应。

这种动态在推理工作负载中尤为强大,地理分布广泛的供应还能通过降低端用户的延迟来提升产品体验。第一个在规模上实现这种流动性飞轮效应的市场将获得显著的竞争优势,因为一旦供应商和客户与平台的工具和工作流集成,就会面临转换成本。

GPU 市场的网络效应飞轮

在这种赢家通吃的市场中,引导网络启动并达到逃逸速度是最关键的阶段。在这方面,加密为去中心化计算项目提供了中心化竞争对手所不具备的强大工具:代币激励。

其机制可以是简单但却极具影响力的。协议首先推出一个代币,包含通胀奖励计划,并可能通过空投将初始分配发放给早期贡献者。这些代币发行将成为推动市场供需双方的主要工具。

对于 GPU 提供商,奖励结构需要精心设计,以塑造供应端行为。提供商根据贡献的计算资源和利用率获得代币,但系统应超越简单的线性奖励。协议可以实施动态奖励倍增机制,以解决地理或硬件类型的不平衡——类似于 Uber 使用高峰定价来激励高需求地区的司机。

例如,提供在供应不足地区的计算资源可能获得 1.5 倍奖励,而提供暂时稀缺的 GPU 类型可能获得 2 倍奖励。基于持续的利用率对奖励系统进行分级,可以鼓励提供商保持稳定的可用性,而不是机会性地在不同平台之间切换。

在需求端,客户可以通过获得代币奖励来有效地补贴使用成本。协议可以提供更高的奖励来鼓励更长期的计算承诺,从而激励用户在平台上建立更深的技术依赖。这些奖励还可以进一步与平台的战略优先事项对齐,例如获取特定区域的需求。

计算的基础费率可以保持在市场价格或略低于市场价格,协议可以使用 zkTLS 预言机来持续监控和匹配竞争对手的定价。代币奖励则作为这些竞争性基础费率之上的额外激励层。这种双重定价模式允许平台在保持价格竞争力的同时,通过代币激励来引导特定行为,从而加强网络效应。

通过分发代币激励,提供商和客户都将开始在网络中积累权益。虽然其中一些人可能会出售这些权益,但另一些人会持有,从而成为平台的利益相关者和推广者。这些参与者将对网络的成功充满兴趣,不仅限于直接使用或提供计算资源,而是进一步推动网络的增长和普及。

随着时间的推移,当网络达到逃逸速度并建立起强大的网络效应后,代币激励可以逐步减少。作为最大市场的自然优势——更好的匹配、更高的利用率、更广泛的地理覆盖——将成为自我持续的增长动力。

代币激励如何加速 GPU 市场的网络效应飞轮

审查阻力

尽管价格和资源广度是重要的差异化因素,但去中心化计算网络还能应对一个日益严重的问题:来自中心化服务提供商的运营限制。传统云服务商已经展示了其基于内容政策和外部压力暂停或终止服务的意愿。这些先例引发了人们对类似政策可能延伸至 AI 模型开发和部署的合理担忧。

随着 AI 模型日趋先进并应用于越来越多样化的场景,云提供商可能会像现有内容审核机制一样,对模型训练和服务实施限制。这种情况可能不仅影响 NSFW 内容和有争议的话题,还可能波及医疗影像、科学研究或创意艺术等领域的合法用途,而这些用途可能因过于谨慎的自动过滤系统而被错误阻止。

去中心化网络通过让市场参与者自行决定基础设施的使用,为创新提供了一个更自由、更不受限制的环境。

然而,无权限架构的另一面是隐私保护的挑战。当计算资源分布于多个提供商网络,而非集中在单一可信数据中心时,开发者需要更加注重数据安全。尽管加密技术和可信执行环境(TEE)能够提供帮助,但开发者必须根据具体需求在审查阻力与隐私保护之间权衡。

信任与合约执行

由于对 AI 计算资源的需求极高,GPU 提供商可能利用其市场地位,从成功客户中榨取最大利润。去年,知名独立开发者 Pieter Levels 分享了一些实例,包括他和其他开发者在公开了 AI 应用的收入后,服务商突然将价格提高了 600% 以上。

去中心化系统能够提供针对这一问题的解决方案——基于信任最小化的合约执行。当协议被编码在链上而非埋藏于服务条款中时,合约将变得透明且不可篡改。提供商无法在合同执行期间随意涨价或改变条款,除非这些变更经过协议明确同意。

除了价格问题,去中心化网络还能利用可信执行环境(TEEs)来提供可验证的计算资源。这确保了开发者实际获得其所支付的 GPU 资源,无论是硬件规格还是专用访问。例如,当开发者支付了用于模型训练的 8 个 H100 GPU 的专用访问费用时,密码学证明能够验证其工作负载确实运行在 80GB 显存的 H100 上,而不是被暗中降级到低端 GPU 或与其他用户共享资源。

无需许可

去中心化计算网络可以为开发者提供真正无需许可的替代方案。与传统提供商需要进行广泛的 KYC 流程和信用检查不同,任何人都可以加入这些网络并开始消耗或提供计算资源。这大大降低了进入门槛,尤其对于新兴市场的开发者或从事实验性项目的开发者来说尤为重要。

当我们考虑到 AI 智能体的未来时,这种无需许可的特性变得更加重要。AI 智能体刚刚开始找到自己的立足点,垂直整合的智能体预计将超越 SaaS 行业的规模。像 Truth TerminalZerebro 这样的项目正在展示智能体获得自主性的初步迹象,学习如何使用社交媒体和图像生成器等外部工具。

随着这些自治系统变得越来越复杂,它们可能需要动态地为自己配置计算资源。去中心化网络中,合约可以通过代码而非人工中介信任地执行,这正是未来智能体所需的自然基础设施。智能体可以自主谈判合约、监控性能并根据需求调整计算使用——这一切都无需人工干预或批准。

市场格局

去中心化计算网络的概念并不新颖——在当前的 AI 热潮之前,许多项目就已经在努力使稀缺的计算资源更加普及。Render Network 自 2017 年起就开始运营,聚合 GPU 资源用于计算机图形渲染。Akash 于 2020 年推出,旨在创建一个开放的通用计算市场。这两个项目在各自的领域取得了适度的成功,但现在都集中于 AI 工作负载。

同样,像 FilecoinArweave 这样的去中心化存储网络也在向计算领域扩展。他们认识到,随着 AI 成为存储和计算的主要消费方,提供集成解决方案是有意义的。

正如传统数据中心在与专门的 AI 设施竞争时面临困难,这些成熟的网络也在与原生 AI 解决方案的竞争中遇到了上坡路。它们缺乏执行 AI 工作负载所需复杂编排的基因。相反,它们正在通过成为其他 AI 专用网络的计算提供商来找到自己的位置。例如,Render 和 Akash 现在都在 io.net 的市场上提供其 GPU。

这些新的 AI 原生市场是谁?io.net 是聚合企业级 GPU 供应的早期领导者之一,其网络上有超过 30 万个经过验证的 GPU。它们声称提供比传统集中式提供商节省 90% 的成本,并且日收益超过 25,000 美元(年化 900 万美元)。类似地,Aethir 聚合了超过 40,000 个 GPU(包括 4,000 多个 H100),以支持 AI 和云计算应用。

之前我们讨论过 Prime Intellect 正在为大规模去中心化训练创建框架。除了这些努力,它们还提供一个 GPU 市场,用户可以按需租用 H100。Gensyn 是另一个在去中心化训练上押注的项目,采用类似的训练框架加上 GPU 市场的方式。

虽然这些都是支持训练和推理的工作负载无关市场(支持两者),但一些项目专注于仅用于推理——这是我们最感兴趣的去中心化计算工作负载。其中最重要的是 Exo Labs,它使用户能够在日常设备上运行前沿级 LLM。它们开发了一个开源平台,允许将 AI 推理任务分配到多个设备上,如 iPhone、Android 和 Mac。最近,他们展示了如何在四台 M4 Pro Mac Mini 上分布式运行一个 70B 模型(可扩展到 400B)。

关键基础设施

当中本聪在 2008 年推出比特币时,它的好处——数字黄金、有限供应和抗审查的货币——只是理论上的。尽管传统金融体系有其缺陷,但它仍在运作。中央银行尚未展开前所未有的货币印刷。国际制裁尚未被用作对整个经济体的武器。对替代方案的需求显得更像是学术问题,而非紧迫问题。

经历了十年的量化宽松,直到 COVID 期间的货币扩张,比特币的理论好处才得以转化为切实的价值。如今,随着通货膨胀侵蚀储蓄、地缘政治紧张局势威胁美元主导地位,比特币作为“数字黄金”的角色已从密码朋克的梦想发展成被机构和国家接受的资产。

稳定币也经历了类似的过程。随着以太坊等通用区块链的出现,稳定币迅速成为最具前景的用例之一。然而,技术的逐步改进以及阿根廷和土耳其等国的经济遭受通货膨胀的摧残,才使得稳定币从一种小众的加密创新,发展为每年流转数万亿美元的关键金融基础设施。

加密技术本质上是一种防御性技术——在顺境中看似不必要的创新,在危机时刻变得至关重要。这些解决方案的需求只有在现有系统崩溃或暴露其真实面目时才显现出来。

今天,我们正生活在 AI 的黄金时代。风险投资资金流动自由,公司争相提供最低价格,限制措施(如果有的话)也是罕见的。在这种环境下,去中心化的替代方案似乎显得不那么必要。为什么要处理代币经济学和证明系统的复杂性,当传统提供商完全足够呢?

但从过去的主要技术浪潮来看,这种恩惠是暂时的。我们距离 AI 革命才刚刚开始两年。当技术逐渐成熟,AI 竞赛的赢家浮现时,它们的真正实力将显现出来。今天提供慷慨访问的公司,最终将通过定价、政策、权限等方式行使控制。

这不仅仅是另一轮技术周期的问题。AI 正在成为文明的新基底——我们处理信息、创造艺术、做决策并最终进化的视角。计算不仅仅是一种资源,它是智能本身的货币。控制其流动的人,将塑造人类的认知边界。

去中心化计算不仅仅是为了提供更便宜的 GPU 或更多灵活的部署选项(虽然必须提供这两者以获得成功)。它是为了确保对人工智能——人类最具变革性的技术——的访问保持不可审查和主权。它是我们对抗未来的盾牌,在那个未来,少数公司不仅决定谁能使用 AI,还决定他们如何使用 AI。

我们今天构建这些系统,不是因为它们现在就必要,而是因为它们明天将变得至关重要。当 AI 成为社会的基础设施之一时,去中心化计算将不仅仅是一个替代方案——它将像比特币和稳定币对抗金融控制一样,成为抵抗数字霸权的关键。

人工超智能的竞赛可能超出了去中心化系统的能力范围。但确保这份智能的果实对所有人保持可及?这是值得一搏的竞赛。

免责声明:

  1. 本文转载自【Decentralized.co】,转发原文标题:《去中心化计算》。所有版权归原作者所有【Shlok Khemani】。若对本次转载有异议,请联系 Gate Learn 团队,他们会及时处理。
  2. 免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。
  3. Gate Learn 团队将文章翻译成其他语言。除非另有说明,否则禁止复制、分发或抄袭翻译文章。

为什么去中心化计算是人工智能发展的关键驱动力?

进阶1/7/2025, 6:46:55 AM
今天的文章探讨了加密领域中新兴但常被误解的去中心化计算板块。我们深入分析了AI基础设施领域,以了解去中心化替代方案在实际中可以竞争的领域。

转发原文标题:《去中心化计算》

今天的文章探讨了加密领域中新兴但常被误解的去中心化计算板块。我们深入分析了AI基础设施领域,以了解去中心化替代方案在实际中能够竞争的领域。

我们将探讨以下问题:ASI是否可以在分布式网络上训练?加密网络具有什么独特优势?以及为何无许可的计算基础设施可能会像比特币之于金融一样,成为AI领域的关键组成部分。

文章中一个常见的主题是AI领域的指数级增长——无论是投资、计算能力还是技术发展。这与加密市场和大众关注度的复苏相呼应。我们对这两大技术浪潮的交汇点感到非常兴奋。

你好!

在一个阳光明媚的日子里,田纳西州孟菲斯市上空,一架螺旋桨间谍飞机反复盘旋在一座工业建筑上空,机上的乘客疯狂地拍摄下方的设施。这并不是冷战间谍活动的场景,而是发生在2024年的一幕。目标不是军事设施或铀浓缩基地,而是一座曾经的家电工厂,现在这里容纳着世界上最强大的超级计算机之一。这些乘客并非外国特工,而是竞争数据中心公司的一些员工。

每隔几十年,一项具有变革性潜力的技术就会出现,能够毫无疑问地改变文明的轨迹。紧随其后的是世界上最强大的实体之间的竞争,争夺率先实现这一技术的先机。其回报巨大,而失败的后果可能是毁灭性的,这促使这些实体迅速调动他们所有的资源——人才和资本——全力掌控这项技术。

在20世纪,有两项技术符合这种定义——核武器和太空探索。对这两项技术的争夺主要集中在最强大的国家之间。美国在这两场竞赛中的胜利奠定了其作为世界主导超级大国的地位,开启了一个空前繁荣的时代。而对于失败的一方——纳粹德国和苏联,其后果则是毁灭性的,甚至是致命的。

位于美国田纳西州橡树岭的占地44英亩的K-25巨型工厂,是用于生产第一枚原子弹所需铀的地方(来源)。

美国的胜利付出了巨大的代价。曼哈顿计划耗资近20亿美元(约合现值300亿美元),雇用了超过12万人——相当于每千名美国人中就有一人参与其中。太空竞赛消耗的资源更为庞大。阿波罗计划在20世纪60年代花费了28亿美元(按今天的价值计算约为3000亿美元),并动员了超过40万人——相当于每490名美国人中就有一人参与。1966年鼎盛时期,NASA占据了整个美国联邦预算的4.4%。

阿波罗11号在执行登月任务前即将发射的画面(来源)。

2022年ChatGPT的发布标志着一场具有文明改变意义的新竞赛的开始——对人工超级智能(ASI)的追求。尽管人工智能已经融入日常生活——管理社交媒体动态、Netflix推荐和电子邮件垃圾过滤器,但大型语言模型(LLMs)的出现有望彻底改变一切:人类生产力、媒体创作、科学研究乃至创新本身。

这一次的竞争者不再是国家(至少目前不是),而是全球最大的公司(微软、谷歌、Meta、亚马逊),最炙手可热的初创公司(OpenAI、Anthropic)以及全球最富有的个人(埃隆·马斯克)。当科技巨头将前所未有的资本投入到构建训练更强大模型的基础设施时,初创公司也在吸引创纪录的风险投资资金。而埃隆·马斯克,则一如既往地做着他的“埃隆式”事情(受监视的数据中心属于他的公司xAI)。

然后,还有其他人——企业、中小公司和初创公司。他们或许无意构建人工超级智能(ASI),但迫切希望利用人工智能解锁的尖端能力来优化业务、颠覆行业或创造全新的领域。潜在的回报如此巨大,以至于每个人都在争相分一杯由机器智能驱动的新经济蛋糕。

AI革命的核心是其最重要的组件:图形处理器(GPU)。这种最初为电子游戏设计的专用计算芯片,如今已成为全球最炙手可热的商品。对GPU的需求如此之大,以至于企业常常需要忍受数月的等待,仅为了获得少量的芯片。这种需求让其主要制造商NVIDIA一跃成为全球市值最高的公司。

对于无法或不愿直接购买GPU的企业来说,租赁算力成为了次优选择。这推动了AI云服务提供商的兴起——这些公司运营着高度复杂的数据中心,专门满足AI热潮带来的计算需求。然而,需求的激增及其不可预测性意味着定价和可用性都无法得到保障。

我曾论述过,区块链是一种“科斯式”技术,旨在“润滑齿轮、铺平道路、加固桥梁”,以便其他颠覆性创新能够蓬勃发展。随着AI成为我们时代的变革力量,GPU获取的稀缺性和高昂成本成为了创新的障碍。一些区块链公司正在介入,试图通过基于区块链的激励机制来打破这些障碍。

在今天的文章中,我们首先从区块链领域退一步,审视现代AI基础设施的基本原理——神经网络如何学习,为什么GPU如此重要,以及当今的数据中心如何演变以应对前所未有的计算需求。接着,我们探讨去中心化计算解决方案,分析它们在哪些领域能够现实地与传统提供商竞争,加密网络的独特优势是什么,以及为何尽管它们无法带来通用人工智能(AGI),但仍然对于确保AI的惠及面具有重要意义。

让我们从GPU为何如此重要谈起。

GPU

这是《大卫》,一座高达17英尺、重达6吨的大理石雕像,由意大利文艺复兴时期的天才大师米开朗基罗创作。它描绘了《大卫与歌利亚》故事中的圣经英雄,以其对人体解剖结构的完美呈现以及对透视和细节的精妙把控,被视为不朽的杰作。

与所有大理石雕塑一样,《大卫》的起点是巨大的卡拉拉大理石毛坯。为了将它雕琢成最终壮丽的形态,米开朗基罗必须细致地一点点敲凿。从大刀阔斧地确定人体的基本轮廓,到逐步刻画出肌肉的曲线、静脉的紧张感以及眼神中微妙的决心,他逐渐追求越来越细腻的细节。米开朗基罗花了三年的时间,才将《大卫》从石头中“解放”出来。

但为什么在一篇关于人工智能的文章中谈论一座500年前的大理石雕像呢?

如同《大卫》,每一个神经网络最初也是一种纯粹的潜能——一组初始化为随机数(权重)的节点,像那块巨大的卡拉拉大理石毛坯一样没有形状。

这个原始模型反复地被输入训练数据——成千上万的输入与其正确输出配对的实例。每个通过网络的数据点都会触发成千上万次的计算。在每个节点(神经元)处,输入的连接会将输入值乘以连接的权重,求出这些乘积的总和,并通过“激活函数”转换结果,决定神经元的激活强度。

正如米开朗基罗会退后一步,评估他的作品并进行修正,神经网络也会经历一个精炼过程。每完成一次前向传播后,网络会将其输出与正确答案进行比较,并计算出误差范围。通过一种叫做反向传播的过程,它衡量每个连接对误差的贡献,并像米开朗基罗的凿刻一样,调整其权重值。如果某个连接导致了错误预测,它的影响力就会减小。如果它有助于得出正确答案,它的影响力则会增强。

当所有数据通过网络(每个数据点完成一次前向传播和反向传播步骤)后,就标志着一个“周期”(epoch)的结束。这个过程会重复多次,每次传递都会精炼网络的理解。在早期的周期中,权重变化剧烈,网络进行大范围的调整——就像最初的大刀阔斧的凿刻一样。在后期的周期中,变化变得更加微妙,细致地调整连接以达到最佳性能——就像最后的精细修饰揭示了《大卫》的细节。

最终,在成千上万次甚至百万次的迭代后,训练好的模型诞生了。就像《大卫》以完成的姿态自豪地伫立一样,神经网络从随机噪声转变为一个能够识别模式、做出预测、生成骑着滑板车的猫图像,或让计算机理解并用人类语言做出回应的系统。

为什么是 GPU?

米开朗基罗独自雕刻《大卫》,每次只能进行一次凿刻,每次都需要精确计算角度、力度和位置。这种精细的精准度是他花费三年时间完成这件杰作的原因。但想象一下,如果有成千上万的同样技艺高超的雕刻家在《大卫》上协调工作——一组团队雕刻头发的卷曲,另一组雕刻躯干的肌肉,数百人同时雕刻面部、手部和脚部的精细细节。如此并行的努力将把三年的工作压缩为几天。

类似地,尽管CPU强大且精确,但它们每次只能执行一个计算。训练一个神经网络并不需要单一复杂的计算,而是需要数亿次简单的计算——主要是在每个节点上的乘法和加法。例如,之前提到的神经网络样本,只有18个节点和大约100个连接(参数),可以在CPU上在合理的时间内完成训练。

然而,今天最强大的模型,如OpenAI的GPT-4,拥有1.8万亿个参数!即使是较小的现代模型也至少包含十亿个参数。逐一进行计算训练这些模型将需要数百年。这就是GPU的优势所在:它们能够同时执行大量简单的数学计算,理想地处理多个神经网络节点的并行计算。

现代GPU的性能令人震惊。例如,NVIDIA最新的B200 GPU包含超过2000亿个晶体管,并支持每秒进行2250万亿次并行计算(2,250 TFLOPS)。单个B200 GPU能够处理最多7400亿个参数的模型。这些机器代表了现代工程的壮举,这也解释了为什么NVIDIA以每个40,000美元的价格销售每台单位,并在五年内其股价暴涨了2500%以上。

黄仁勋展示NVIDIA B200

即便是这些强大的机器,也无法单独完成AI模型的训练。回想一下,在训练过程中,每个数据实例必须单独通过模型进行前向和后向循环。现代的大型语言模型(LLM)是在涵盖整个互联网的数据集上进行训练的。例如,GPT-4处理了大约12万亿个令牌(约9万亿个单词),而下一代模型预计将处理多达100万亿个令牌。仅使用单个GPU处理如此庞大的数据量,仍然需要几个世纪的时间。

解决方案在于增加另一层并行性——创建GPU集群,将训练任务分配给多个GPU,使它们作为一个统一的系统进行工作。模型训练的工作负载可以通过三种方式进行并行化:

数据并行性:多个GPU各自维护一个完整的神经网络模型副本,同时处理不同部分的训练数据。每个GPU独立处理分配的数据批次,然后定期与其他GPU同步。在这个同步期间,GPU之间相互通信,以找出它们权重的集体平均值,并更新各自的权重,使它们保持一致。因此,GPU会继续在各自的数据批次上独立训练,直到再次进行同步。

随着模型的增大,单一副本可能变得太大,无法放入一个GPU。例如,最新的B200 GPU最多只能容纳7400亿个参数,而GPT-4则是一个拥有1.8万亿参数的模型。在这种情况下,单个GPU之间的数据并行性是不可行的。

张量并行性:这种方法通过将每个模型层的工作和权重分配到多个GPU来解决内存限制。GPU在每次前向传播和反向传播步骤中与整个集群交换中间计算结果。这些GPU通常被分组在八个单元的服务器中,通过NVLink连接——NVIDIA的高速直接GPU对GPU互连。这种设置要求GPU之间具有高带宽(高达400 Gb/s)和低延迟的连接。张量集群有效地作为一个单一的大型GPU运行。

流水线并行性:这种方法将模型拆分到多个GPU,每个GPU处理特定的层。数据按顺序流经这些GPU,就像接力赛中的每个跑者(GPU)管理自己的部分,然后传递接力棒。流水线并行性特别适合将不同的8-GPU服务器连接在数据中心内,使用高速InfiniBand网络进行服务器间通信。虽然它的通信需求超过了数据并行性,但仍低于张量并行性中GPU之间频繁交换数据的需求。

现代集群的规模令人瞩目。GPT-4,拥有1.8万亿个参数和120层,训练时需要25,000个A100 GPU。这个过程花费了三个月,费用超过6000万美元。A100已经是两代前的产品;如果使用今天的B200 GPU,仅需约8,000个单位和20天的训练时间。这再次展示了AI发展的速度。

但GPT-4级别的模型如今已经显得过时。下一代先进模型的训练正在进行,数据中心里托管着由10万个B100或H100 GPU组成的集群(后者是前一代产品)。这些集群仅GPU资本开支就超过40亿美元,它们是人类最强大的超级计算机,提供的计算能力至少是政府拥有的超级计算机的四倍。

除了确保原始计算能力,ASI(人工超级智能)追求者在尝试设置这些集群时还会遇到另一个问题:电力。每个GPU消耗700瓦的电力。将10万个GPU结合在一起,整个集群(包括支持硬件)将消耗超过150兆瓦的电力。为便于理解,这个消耗相当于一个30万人口的城市——类似于新奥尔良或苏黎世。

疯狂的程度不仅仅如此。大多数ASI追求者相信,LLM(大型语言模型)扩展法则——即随着模型大小、数据集大小和训练计算量的增加,模型性能将可预测地改善——将继续成立。更强大的模型训练计划已经在进行中。到2025年,每个训练集群的成本预计将超过100亿美元;到2027年,超过1000亿美元。随着这些数字接近美国政府在阿波罗计划中的投资,显而易见,为什么实现ASI已经成为我们这个时代的定义性竞赛。

从 GPT-5 开始的模型的指标是估计值

随着集群规模的扩大,电力消耗成比例增加,明年的训练将需要超过1GW的电力。再过一年,将需要10GW或更多。随着这一扩展没有减缓的迹象,预计到2030年,数据中心将消耗全球约4.5%的电力。现有的电力网络已经难以满足当前模型的需求,无法为未来的集群提供足够的能源。这提出了一个关键问题:这些电力将从哪里来?大科技公司正在采取双管齐下的策略。

从长远来看,唯一可行的解决方案是ASI追求者自给自足,生产自己的电力。考虑到它们的气候承诺,这些电力必须来自可再生能源。核能作为主要解决方案脱颖而出。亚马逊最近以6.5亿美元购买了一个由核电厂提供电力的数据中心园区。微软已经聘请了一位核技术负责人,并正在重启历史悠久的三英里岛核电厂。谷歌已从加利福尼亚的Kairos Power收购了多个小型核反应堆。OpenAI的Sam Altman支持了HelionExowattOklo等能源初创公司。

微软正在重启三英里岛核电厂(图片来源

尽管核能的种子正在现在播种,但其果实(或电力)需要几年才能成熟。那么,如何解决当代模型的能源需求呢?临时解决方案是通过多个数据中心进行分布式训练。微软和谷歌等公司正将他们的训练集群分布在多个地点,而不是将巨大的电力需求集中在一个地方。

当然,挑战在于如何让这些分布式系统高效协作。即使是光速,数据从美国东海岸到西海岸的往返大约需要43毫秒——在计算机术语中,这是一个漫长的时间。此外,如果某个芯片滞后,例如滞后10%,那么整个训练过程的速度都会以同样的幅度减慢。

解决方案是通过高速光纤网络将不同地点的数据中心连接起来,并应用前面提到的多种并行化技术来同步它们的操作。张量并行性应用于每台服务器内的GPU,使它们能够作为一个单独的单元工作。管道并行性则应用于同一数据中心内的服务器链接,因其网络需求较低。最后,位于不同地点的数据中心(被称为“岛屿”)通过数据并行性定期同步信息。

之前我们提到,数据并行性对于单个GPU来说效果不好,因为它们无法独立容纳大规模模型。然而,当我们并行化的是每个包含数千个GPU的岛屿,而非单个单元时,这一动态发生了变化。训练数据被分布到每个岛屿,并通过相对较慢的光纤连接(与NVLink和Infiniband相比)定期同步这些岛屿。

数据中心

让我们将重点从训练和GPU转移到数据中心本身。

二十年前,亚马逊推出了Amazon Web Services(AWS)——这是历史上最具变革性的业务之一,并创造了一个名为云计算的全新行业。如今,云计算行业的领导者(亚马逊、微软、谷歌和甲骨文)享有稳固的市场主导地位,年收入接近3000亿美元,利润率在30%到40%之间。现在,AI的兴起为这个长期保持寡头垄断市场带来了新的机会。

GPU密集型的AI数据中心与传统数据中心在物理需求、技术复杂性和经济性方面有着显著的差异。

我们之前讨论过GPU的高能耗,这使得AI数据中心的功率密度大大增加,因此也产生更多的热量。传统的数据中心使用巨大的风扇(空气冷却)来散热,但这种方法对AI设施来说既不充分,也不具备经济可行性。相反,AI数据中心正在采用液冷系统,其中水块直接连接到GPU和其他高温组件,以更高效、安静地散热(B200 GPU自带这种架构)。支持液冷系统需要增加大型冷却塔、集中式水系统设施以及用于输送水到各GPU的管道,这是对数据中心基础设施的根本性改造。

除了更高的能耗外,AI数据中心还有独特的负载需求。传统数据中心保持可预测的电力消耗,而AI工作负载的功率使用模式波动性更大。这种波动性发生在GPU周期性地在100%负载和几乎停止之间切换,这发生在训练达到检查点时,此时权重要么存储到内存中,要么像我们之前看到的那样,与其他岛屿同步。AI数据中心需要专门的电力基础设施来应对这些负载波动。

构建GPU集群比构建常规计算云更为复杂。GPU需要非常快速地相互通信。为此,它们必须非常紧密地排列在一起。一个典型的AI设施需要超过200,000条特殊电缆,称为InfiniBand连接。这些电缆让GPU之间可以通信。如果其中一条电缆出现故障,整个系统都会停摆。直到该电缆修复,训练过程才会继续进行。

这些基础设施需求使得传统数据中心几乎无法通过简单的升级改造来适配高性能GPU并使其支持AI。这种升级将需要几乎完全的结构重建。因此,各公司正在从头开始建设专为AI设计的新数据中心,不同的组织在不同规模上进行这一建设。

在这一领域,领先的科技公司正在争相建设自己的AI数据中心。Meta正在大力投资专门为其自身AI开发而建的设施,将其视为直接的资本投资,因为它不提供云服务。微软正在建设同样庞大的数据中心,以支持其自己的AI项目,并为OpenAI等重要客户提供服务。甲骨文也积极进入这一领域,并将OpenAI作为重要客户。亚马逊继续扩大其基础设施,特别是为了支持像Anthropic这样的新兴AI公司。埃隆·马斯克的xAI则选择建立自己的100,000个GPU集群,避免依赖其他公司。

xAI的100,000 H100 GPU数据中心内部(图片来源

除了现有的大公司外,”新云”也在崛起——这些是专门为AI工作负载提供GPU计算的云服务提供商。这些新云根据规模分为两类。

大型新云提供商,包括CoreWeaveCrusoeLLama Labs,运营着超过2,000个GPU的集群。它们与传统云服务提供商的区别有两个方面:提供定制化的基础设施解决方案,而非标准化的套餐,并且要求长期客户承诺,而不是按使用付费的安排。

它们的商业模式利用这些长期合同和客户的信用状况来确保基础设施融资。收入来自为专门服务收取的高额费用,利润则来自低融资成本与客户支付之间的差额。

这种安排通常是如何运作的:一个新云提供商与一家资金充裕的AI初创公司签订三年合同,提供10,000个H100 GPU,月费为4,000万美元。通过这个每月收入1.44亿美元的保证收入流,提供商获得了有利的银行融资(6%的利率),以购买并安装价值7亿美元的基础设施。每月的收入4,000万美元覆盖了1,000万美元的运营成本和2,000万美元的贷款偿还,产生了1,000万美元的月度利润,而初创公司则获得定制的专用计算能力。

这种模式要求极其谨慎地选择客户。提供商通常寻找具有大额现金储备或强大风险投资支持的公司——通常是估值5亿美元或以上的公司。

小型新云提供商提供2,000个或更少GPU的集群,面向AI市场的不同细分群体——小型和中型初创公司。这些公司通常训练较小的模型(最多70亿参数)或对开源模型进行微调。(微调是将基础模型适应特定用例的过程。)这两种工作负载需要适度但专用的计算能力,且时长较短。

这些提供商提供按需计算,按小时收费,提供固定时长的不间断集群访问。虽然这比长期合同更贵,但它为初创公司提供了灵活性,让它们可以在不需要签订数百万美元协议的情况下进行实验。

最后,除了云巨头和新云提供商外,我们还有AI基础设施空间的中介平台和聚合商。这些中介平台不拥有GPU基础设施,而是将计算资源的所有者与需要这些资源的客户连接起来。

平台提供商如HydraHostFluidstack充当GPU计算的Shopify。就像Shopify使商家能够启动在线商店而不必构建电商基础设施一样,这些平台允许数据中心运营商和GPU拥有者提供计算服务,而不必开发自己的客户接口。它们提供运行GPU计算业务的完整技术包,包括基础设施管理工具、客户配置系统和计费解决方案。

市场聚合商如Vast.ai则充当GPU世界的Amazon。它们创建了一个市场,将来自不同提供商的多样化计算资源结合起来——从消费者级的RTX显卡到专业级的H100 GPU。GPU所有者列出他们的资源,并附上详细的性能指标和可靠性评分,而客户则通过自助平台购买计算时间。

推理

到目前为止,我们的讨论主要集中在训练(或微调)模型。然而,一旦模型训练完成,就必须将其部署以服务最终用户,这个过程被称为推理。每次你与ChatGPT对话时,实际上是在使用运行推理工作负载的GPU,这些工作负载接收你的输入并生成模型的回应。让我们再回到讨论大理石雕像的比喻。

这是大卫像——不是米开朗基罗的原作,而是1857年为伦敦维多利亚和阿尔伯特博物馆委托制作的石膏铸像。米开朗基罗在佛罗伦萨花费了三年时间,仔细雕刻大理石以创作原作,而这座石膏铸像则是通过直接模制获得的——完美地再现了米开朗基罗雕刻的每一个曲线、角度和细节。创作性的工作只进行了一次,之后就变成了忠实复制这些特征。今天,大卫像的复制品无处不在,从博物馆的大厅到拉斯维加斯的赌场庭院都有它的身影。

这正是AI推理的工作方式。训练一个大型语言模型就像米开朗基罗的原作雕刻过程——计算密集、耗时且资源需求大,因为模型通过数百万次细微调整逐渐学习语言的正确“形状”。但使用训练好的模型——推理——更像是在制作复制品。当你与ChatGPT对话时,你并不是在从零开始教它语言,而是在使用一个已经完美调整的模型副本(就像大卫的精准曲线和角度一样)。

推理工作负载与训练有根本的不同。训练需要大规模、密集的最新GPU集群(如H100)来处理密集的计算,而推理则可以在单个GPU服务器上使用较老的硬件(如A100,甚至是消费者级的显卡)运行,从而显著降低成本。尽管如此,推理工作负载仍然有其独特的需求:

  • 广泛的地理覆盖:模型需要在多个数据中心部署,以确保新加坡的用户和旧金山的用户获得同样快速的响应。
  • 高可用性:与训练可以暂停和恢复不同,推理需要24/7全天候可用,因为用户期望随时获得即时响应。
  • 冗余:需要多个服务器随时准备处理请求,以防某些服务器出现故障或过载。

这些特点使得推理工作负载非常适合使用现货定价模型。在现货定价下,GPU资源通常以比按需定价低30-50%的显著折扣提供——但服务可能会在高优先级客户需要资源时暂停。这个模型非常适合推理,因为冗余部署可以在中断时迅速将工作负载切换到可用的GPU上。

在GPU和AI云计算的背景下,我们现在可以开始探讨加密货币如何融入其中了。让我们(终于)开始吧。

加密技术的定位

项目和报告经常引用彼得·蒂尔(Peter Thiel)的观点,即“人工智能是集中的,加密技术是去中心化的”来讨论加密技术在AI训练中的作用。尽管蒂尔的说法无疑是正确的,但我们刚刚看到大量证据表明大科技公司在训练强大AI方面拥有明显的优势——这一观点常被错误引用,以暗示加密技术和去中心化计算是对抗大科技公司影响力的主要解决方案。

这种说法类似于之前关于加密技术将彻底改变社交媒体、游戏以及无数其他行业的夸大言论。这些说法不仅无益,接下来我将说明,它们在短期内至少是不现实的。

相反,我将采取一种更务实的方式。我假设一个寻求计算资源的AI初创公司并不关心去中心化的原则或对大科技公司的意识形态对抗。他们面对的问题是——如何以最低的成本获得可靠的GPU计算资源。如果一个加密项目能比非加密方案提供更好的解决方案,他们就会选择使用它。

为此,我们首先需要了解加密项目的竞争对手是谁。之前我们已经讨论过不同类别的AI云提供商——大科技公司和超大规模供应商、大型新云、小型新云、平台提供商和市场平台。

去中心化计算(如所有DePIN项目)背后的基本论点是,当前的计算市场效率低下。GPU需求异常高涨,而供应则分散在全球各地的数据中心和个人家中且未被充分利用。该领域的大多数项目通过整合这些分散的供应来减少低效问题,直接与市场平台竞争。

在此基础上,让我们看看这些项目(以及计算市场平台总体)如何在不同的AI工作负载中提供帮助——包括训练、微调和推理。

训练

首先,需要明确的是,ASI(人工超级智能)不会在一个去中心化的GPU全球网络上进行训练,至少在当前的AI发展路径上不会如此。以下是原因。

之前我们已经讨论过基础模型集群的规模有多庞大。仅仅是开始具备竞争力,你就需要世界上10万个最强大的GPU。而且,这一数字每年都在增长。预计到2026年,一次训练的成本将超过1000亿美元,可能需要一百万个以上的GPU。

只有那些拥有大型新云支持和直接与Nvidia合作关系的大科技公司才能组建这样规模的集群。请记住,这是争夺ASI的竞赛,所有参与者都高度动机充足且资金充裕。如果有额外的大量GPU供应(实际上并没有),这些公司也会是首先抢购的对象。

即使某个加密项目奇迹般地聚集了所需的计算资源,去中心化ASI开发仍面临两个根本性障碍:

首先,GPU仍需连接成大型集群才能有效运作。即使这些集群分布在城市中的不同区域,它们也必须通过专用光纤线路连接。在去中心化环境下,这两者都难以实现。除了获取GPU外,建立AI专用数据中心需要周密的规划——通常需耗时一到两年。(xAI在短短122天内完成了,但埃隆·马斯克短期内似乎不会推出任何代币。)

其次,仅仅创建一个AI数据中心并不足以诞生超级智能AI。正如Anthropic创始人Dario Amodei最近所解释的,AI的扩展类似于化学反应。化学反应需要多种试剂按精确比例才能进行,AI扩展的成功同样依赖于三个关键要素的同步增长:更大的网络、更长的训练时间和更大的数据集。如果只扩大其中一个因素而忽略其他部分,整个过程就会停滞不前。

即使我们设法同时获得计算资源并让这些集群协同工作,为了让训练的模型足够优秀,我们仍然需要大量高质量的数据。没有大科技公司的专有数据源、签订数百万美元合同来获取网络论坛和媒体资源的资金,或生成合成数据的现有模型,要获得足够的训练数据几乎是不可能的。

最近有一些关于扩展法则可能进入平台期的猜测,认为大型语言模型(LLM)性能可能触顶。有些人将此视为去中心化AI开发的机会。然而,这忽略了一个关键因素——人才集中。当前的大科技公司和AI实验室聚集了全球顶尖的研究人员。任何通往AGI的突破性替代路径都可能来自这些中心。在竞争激烈的环境下,这类发现将被严密保密。

基于上述论点,我可以99.99%确定,ASI的训练——甚至是世界上最强大的模型——不会依赖去中心化的计算项目。那么,加密技术究竟能在哪些模型训练中发挥作用?

要在地理位置不同的GPU集群之间进行模型训练,我们需要在它们之间实现数据并行。(回想一下,数据并行是如何让不同的GPU岛屿分别处理训练数据块,并与彼此同步的。)模型规模越大,需要在这些岛屿之间交换的数据量就越大。对于拥有超过一万亿参数的前沿模型,其所需带宽足以需要专用光纤连接。

然而,对于较小的模型,带宽需求会按比例降低。最近在低通信训练算法方面的突破,尤其是延迟同步技术,为以去中心化方式训练小型到中型模型创造了希望。两个团队在这些实验性研究中处于领先地位。

Nous Research是一家AI加速器公司,也是开源AI开发的领导者。他们因Hermes系列语言模型和创新项目World Sim而知名。今年早些时候,他们运营了一个用于LLM排名的BitTensor子网,并通过发布DisTrO(基于互联网的分布式训练)项目,成功在去中心化环境中训练了一个1.2B参数的Llama-2模型,实现了857倍的GPU间带宽需求减少。

Nous Research 的 DisTrO 报告

Prime Intellect 是一家专注于大规模去中心化 AI 基础设施开发的初创公司,致力于聚合全球计算资源,通过分布式系统实现最先进模型的协作训练。他们的 OpenDiLoCo 框架(实现了 DeepMind 的分布式低通信方法)成功在跨越两个大洲和三个国家的环境下训练了一个十亿参数的模型,同时保持了 90-95% 的计算资源利用率。

那么,这些去中心化的训练过程是如何运作的?

传统的数据并行方法要求 GPU 在每一步训练后共享并平均其权重,这在互联网连接环境下几乎不可能实现。而这些项目允许每个 GPU“岛屿”独立训练数百步后再进行同步。可以将其想象为不同的研究团队共同参与同一个项目:他们不是不断互相汇报进度,而是在取得重大进展后才分享成果。

DisTrO 和 OpenDiLoCo 每 500 步才同步一次,并采用双优化器方法:

  • “内层”优化器处理每个 GPU 上的本地更新,就像一个团队在做局部发现
  • “外层”优化器管理 GPU 之间的周期性同步,像是一个协调人整合所有发现

在同步时,他们并非分享所有权重,而是共享“伪梯度”——即当前权重与上次同步权重之间的差异。这种方法非常高效,就像只分享文档的更改部分,而非每次都发送整份文档。

Prime Intellect 的 INTELLECT-1 是 OpenDiLoCo 的实际应用,进一步推动了这一方法,正在训练一个 100 亿参数的模型——这是迄今为止最大规模的去中心化训练尝试。他们引入了关键优化措施,例如:

  • 压缩需要共享的数据,大幅提升通信效率
  • 内置备份系统,即使部分计算机脱机也能继续训练
  • 将同步过程的时间缩短到不到一分钟

INTELLECT-1 由分布在全球的 20 多个 GPU 集群共同训练,近期已完成预训练,并即将作为一个完全开源的模型发布。

INTELLECT-1 训练仪表板

Macrocosmos 这样的团队正在使用类似的算法在 Bittensor 生态系统中训练模型

如果这些去中心化训练算法能够持续改进,它们可能在下一代 GPU 的支持下,具备训练高达 1000 亿参数模型的能力。即使是这种规模的模型,也可以在许多用例中发挥重要作用:

  1. 用于研究和实验的新型架构,不需要前沿级计算资源
  2. 优化性能和速度的小型通用模型,而非追求纯粹的智能
  3. 针对特定领域的专用模型

微调

微调是指在一个预训练的基础模型(通常是 Meta、Mistral 或阿里巴巴发布的开源模型)基础上,使用特定数据集进一步训练,以适应特定任务或领域。这与从头开始训练相比所需的计算量要少得多,因为模型已经学习了通用的语言模式,只需调整权重以适应新的领域。

微调的计算需求随着模型规模增长而变化。假设使用 H100 进行训练:

  • 小型模型(1-7B 参数):单个 GPU,12 小时内完成
  • 中型模型(7-13B 参数):2-4 个 GPU 集群,36 小时内完成
  • 大型模型(>30B 参数):最多 8 个 GPU 集群,4 天内完成

根据这些规格,微调不需要之前讨论的复杂分布式训练算法。按需模型,即开发者短期租用 GPU 集群进行集中训练,可以很好地支持微调工作。具备充足 GPU 资源的去中心化计算市场在处理此类工作负载方面处于理想位置。

推理

推理是去中心化计算市场实现产品市场契合最清晰的路径。讽刺的是,在去中心化训练的讨论中,推理往往是最少被提及的工作流程。这主要有两个原因:一是推理缺乏“十万 GPU 神级模型”训练的吸引力,二是由于当前 AI 革命的阶段性特点。

截至目前,大部分计算资源确实都用于训练。通往 ASI 的竞赛导致了在训练基础设施上的大量前期投资。然而,随着 AI 应用从研究转向生产,这种平衡不可避免地会发生变化。为了使 AI 相关的商业模式可持续发展,从推理中产生的收入必须超过训练和推理的总成本。尽管训练 GPT-4 费用巨大,但那只是一次性成本。持续的计算开销——以及 OpenAI 通往盈利的路径——则依赖于向付费用户提供数十亿次推理请求服务。

计算市场,无论是去中心化的还是传统的,通过汇聚全球各种 GPU 型号(包括新旧 GPU),在推理工作负载中处于独特的有利位置。

计算市场在推理任务中天然具有优势:广泛的地理分布、持续的正常运行时间、系统冗余以及跨 GPU 代际的兼容性,这些特点与推理需求完美契合。

但为什么要加密呢?

我们已经讨论了去中心化计算可以和不能帮助的不同工作流程。现在,我们需要回答另一个重要问题:为什么开发者会选择从去中心化的提供商获取计算资源,而不是从中心化的提供商?去中心化解决方案提供了哪些具有吸引力的独特优势?

价格与范围

稳定币通过提供比传统跨境支付更优越的替代方案,实现了产品市场契合。其中一个重要因素是稳定币的成本更低!同样地,影响 AI 开发者选择云提供商的最大因素是成本。去中心化计算提供商要想具备竞争力,首先必须提供更具优势的定价。

计算市场,如同所有市场,是一个依赖网络效应的业务。平台上的 GPU 供应越多,客户的流动性和可用性就越高,从而吸引更多需求。随着需求的增长,这进一步激励更多 GPU 拥有者加入网络,形成一个良性循环。供应的增加还通过更优匹配和减少闲置时间来实现更具竞争力的定价。当客户能够以有吸引力的价格持续获得所需的计算资源时,他们更可能在平台上建立长期的技术依赖,从而进一步增强网络效应。

这种动态在推理工作负载中尤为强大,地理分布广泛的供应还能通过降低端用户的延迟来提升产品体验。第一个在规模上实现这种流动性飞轮效应的市场将获得显著的竞争优势,因为一旦供应商和客户与平台的工具和工作流集成,就会面临转换成本。

GPU 市场的网络效应飞轮

在这种赢家通吃的市场中,引导网络启动并达到逃逸速度是最关键的阶段。在这方面,加密为去中心化计算项目提供了中心化竞争对手所不具备的强大工具:代币激励。

其机制可以是简单但却极具影响力的。协议首先推出一个代币,包含通胀奖励计划,并可能通过空投将初始分配发放给早期贡献者。这些代币发行将成为推动市场供需双方的主要工具。

对于 GPU 提供商,奖励结构需要精心设计,以塑造供应端行为。提供商根据贡献的计算资源和利用率获得代币,但系统应超越简单的线性奖励。协议可以实施动态奖励倍增机制,以解决地理或硬件类型的不平衡——类似于 Uber 使用高峰定价来激励高需求地区的司机。

例如,提供在供应不足地区的计算资源可能获得 1.5 倍奖励,而提供暂时稀缺的 GPU 类型可能获得 2 倍奖励。基于持续的利用率对奖励系统进行分级,可以鼓励提供商保持稳定的可用性,而不是机会性地在不同平台之间切换。

在需求端,客户可以通过获得代币奖励来有效地补贴使用成本。协议可以提供更高的奖励来鼓励更长期的计算承诺,从而激励用户在平台上建立更深的技术依赖。这些奖励还可以进一步与平台的战略优先事项对齐,例如获取特定区域的需求。

计算的基础费率可以保持在市场价格或略低于市场价格,协议可以使用 zkTLS 预言机来持续监控和匹配竞争对手的定价。代币奖励则作为这些竞争性基础费率之上的额外激励层。这种双重定价模式允许平台在保持价格竞争力的同时,通过代币激励来引导特定行为,从而加强网络效应。

通过分发代币激励,提供商和客户都将开始在网络中积累权益。虽然其中一些人可能会出售这些权益,但另一些人会持有,从而成为平台的利益相关者和推广者。这些参与者将对网络的成功充满兴趣,不仅限于直接使用或提供计算资源,而是进一步推动网络的增长和普及。

随着时间的推移,当网络达到逃逸速度并建立起强大的网络效应后,代币激励可以逐步减少。作为最大市场的自然优势——更好的匹配、更高的利用率、更广泛的地理覆盖——将成为自我持续的增长动力。

代币激励如何加速 GPU 市场的网络效应飞轮

审查阻力

尽管价格和资源广度是重要的差异化因素,但去中心化计算网络还能应对一个日益严重的问题:来自中心化服务提供商的运营限制。传统云服务商已经展示了其基于内容政策和外部压力暂停或终止服务的意愿。这些先例引发了人们对类似政策可能延伸至 AI 模型开发和部署的合理担忧。

随着 AI 模型日趋先进并应用于越来越多样化的场景,云提供商可能会像现有内容审核机制一样,对模型训练和服务实施限制。这种情况可能不仅影响 NSFW 内容和有争议的话题,还可能波及医疗影像、科学研究或创意艺术等领域的合法用途,而这些用途可能因过于谨慎的自动过滤系统而被错误阻止。

去中心化网络通过让市场参与者自行决定基础设施的使用,为创新提供了一个更自由、更不受限制的环境。

然而,无权限架构的另一面是隐私保护的挑战。当计算资源分布于多个提供商网络,而非集中在单一可信数据中心时,开发者需要更加注重数据安全。尽管加密技术和可信执行环境(TEE)能够提供帮助,但开发者必须根据具体需求在审查阻力与隐私保护之间权衡。

信任与合约执行

由于对 AI 计算资源的需求极高,GPU 提供商可能利用其市场地位,从成功客户中榨取最大利润。去年,知名独立开发者 Pieter Levels 分享了一些实例,包括他和其他开发者在公开了 AI 应用的收入后,服务商突然将价格提高了 600% 以上。

去中心化系统能够提供针对这一问题的解决方案——基于信任最小化的合约执行。当协议被编码在链上而非埋藏于服务条款中时,合约将变得透明且不可篡改。提供商无法在合同执行期间随意涨价或改变条款,除非这些变更经过协议明确同意。

除了价格问题,去中心化网络还能利用可信执行环境(TEEs)来提供可验证的计算资源。这确保了开发者实际获得其所支付的 GPU 资源,无论是硬件规格还是专用访问。例如,当开发者支付了用于模型训练的 8 个 H100 GPU 的专用访问费用时,密码学证明能够验证其工作负载确实运行在 80GB 显存的 H100 上,而不是被暗中降级到低端 GPU 或与其他用户共享资源。

无需许可

去中心化计算网络可以为开发者提供真正无需许可的替代方案。与传统提供商需要进行广泛的 KYC 流程和信用检查不同,任何人都可以加入这些网络并开始消耗或提供计算资源。这大大降低了进入门槛,尤其对于新兴市场的开发者或从事实验性项目的开发者来说尤为重要。

当我们考虑到 AI 智能体的未来时,这种无需许可的特性变得更加重要。AI 智能体刚刚开始找到自己的立足点,垂直整合的智能体预计将超越 SaaS 行业的规模。像 Truth TerminalZerebro 这样的项目正在展示智能体获得自主性的初步迹象,学习如何使用社交媒体和图像生成器等外部工具。

随着这些自治系统变得越来越复杂,它们可能需要动态地为自己配置计算资源。去中心化网络中,合约可以通过代码而非人工中介信任地执行,这正是未来智能体所需的自然基础设施。智能体可以自主谈判合约、监控性能并根据需求调整计算使用——这一切都无需人工干预或批准。

市场格局

去中心化计算网络的概念并不新颖——在当前的 AI 热潮之前,许多项目就已经在努力使稀缺的计算资源更加普及。Render Network 自 2017 年起就开始运营,聚合 GPU 资源用于计算机图形渲染。Akash 于 2020 年推出,旨在创建一个开放的通用计算市场。这两个项目在各自的领域取得了适度的成功,但现在都集中于 AI 工作负载。

同样,像 FilecoinArweave 这样的去中心化存储网络也在向计算领域扩展。他们认识到,随着 AI 成为存储和计算的主要消费方,提供集成解决方案是有意义的。

正如传统数据中心在与专门的 AI 设施竞争时面临困难,这些成熟的网络也在与原生 AI 解决方案的竞争中遇到了上坡路。它们缺乏执行 AI 工作负载所需复杂编排的基因。相反,它们正在通过成为其他 AI 专用网络的计算提供商来找到自己的位置。例如,Render 和 Akash 现在都在 io.net 的市场上提供其 GPU。

这些新的 AI 原生市场是谁?io.net 是聚合企业级 GPU 供应的早期领导者之一,其网络上有超过 30 万个经过验证的 GPU。它们声称提供比传统集中式提供商节省 90% 的成本,并且日收益超过 25,000 美元(年化 900 万美元)。类似地,Aethir 聚合了超过 40,000 个 GPU(包括 4,000 多个 H100),以支持 AI 和云计算应用。

之前我们讨论过 Prime Intellect 正在为大规模去中心化训练创建框架。除了这些努力,它们还提供一个 GPU 市场,用户可以按需租用 H100。Gensyn 是另一个在去中心化训练上押注的项目,采用类似的训练框架加上 GPU 市场的方式。

虽然这些都是支持训练和推理的工作负载无关市场(支持两者),但一些项目专注于仅用于推理——这是我们最感兴趣的去中心化计算工作负载。其中最重要的是 Exo Labs,它使用户能够在日常设备上运行前沿级 LLM。它们开发了一个开源平台,允许将 AI 推理任务分配到多个设备上,如 iPhone、Android 和 Mac。最近,他们展示了如何在四台 M4 Pro Mac Mini 上分布式运行一个 70B 模型(可扩展到 400B)。

关键基础设施

当中本聪在 2008 年推出比特币时,它的好处——数字黄金、有限供应和抗审查的货币——只是理论上的。尽管传统金融体系有其缺陷,但它仍在运作。中央银行尚未展开前所未有的货币印刷。国际制裁尚未被用作对整个经济体的武器。对替代方案的需求显得更像是学术问题,而非紧迫问题。

经历了十年的量化宽松,直到 COVID 期间的货币扩张,比特币的理论好处才得以转化为切实的价值。如今,随着通货膨胀侵蚀储蓄、地缘政治紧张局势威胁美元主导地位,比特币作为“数字黄金”的角色已从密码朋克的梦想发展成被机构和国家接受的资产。

稳定币也经历了类似的过程。随着以太坊等通用区块链的出现,稳定币迅速成为最具前景的用例之一。然而,技术的逐步改进以及阿根廷和土耳其等国的经济遭受通货膨胀的摧残,才使得稳定币从一种小众的加密创新,发展为每年流转数万亿美元的关键金融基础设施。

加密技术本质上是一种防御性技术——在顺境中看似不必要的创新,在危机时刻变得至关重要。这些解决方案的需求只有在现有系统崩溃或暴露其真实面目时才显现出来。

今天,我们正生活在 AI 的黄金时代。风险投资资金流动自由,公司争相提供最低价格,限制措施(如果有的话)也是罕见的。在这种环境下,去中心化的替代方案似乎显得不那么必要。为什么要处理代币经济学和证明系统的复杂性,当传统提供商完全足够呢?

但从过去的主要技术浪潮来看,这种恩惠是暂时的。我们距离 AI 革命才刚刚开始两年。当技术逐渐成熟,AI 竞赛的赢家浮现时,它们的真正实力将显现出来。今天提供慷慨访问的公司,最终将通过定价、政策、权限等方式行使控制。

这不仅仅是另一轮技术周期的问题。AI 正在成为文明的新基底——我们处理信息、创造艺术、做决策并最终进化的视角。计算不仅仅是一种资源,它是智能本身的货币。控制其流动的人,将塑造人类的认知边界。

去中心化计算不仅仅是为了提供更便宜的 GPU 或更多灵活的部署选项(虽然必须提供这两者以获得成功)。它是为了确保对人工智能——人类最具变革性的技术——的访问保持不可审查和主权。它是我们对抗未来的盾牌,在那个未来,少数公司不仅决定谁能使用 AI,还决定他们如何使用 AI。

我们今天构建这些系统,不是因为它们现在就必要,而是因为它们明天将变得至关重要。当 AI 成为社会的基础设施之一时,去中心化计算将不仅仅是一个替代方案——它将像比特币和稳定币对抗金融控制一样,成为抵抗数字霸权的关键。

人工超智能的竞赛可能超出了去中心化系统的能力范围。但确保这份智能的果实对所有人保持可及?这是值得一搏的竞赛。

免责声明:

  1. 本文转载自【Decentralized.co】,转发原文标题:《去中心化计算》。所有版权归原作者所有【Shlok Khemani】。若对本次转载有异议,请联系 Gate Learn 团队,他们会及时处理。
  2. 免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。
  3. Gate Learn 团队将文章翻译成其他语言。除非另有说明,否则禁止复制、分发或抄袭翻译文章。
即刻开始交易
注册并交易即可获得
$100
和价值
$5500
理财体验金奖励!