為什麼去中心化計算是人工智能發展的關鍵驅動力?

進階1/7/2025, 6:56:23 AM
今天的文章探討了加密領域中新興但常被誤解的去中心化計算板塊。我們深入分析了AI基礎設施領域,以瞭解去中心化替代方案在實際中可以競爭的領域。

轉發原文標題:《去中心化計算》

今天的文章探討了加密領域中新興但常被誤解的去中心化計算板塊。我們深入分析了AI基礎設施領域,以瞭解去中心化替代方案在實際中能夠競爭的領域。

我們將探討以下問題:ASI是否可以在分佈式網絡上訓練?加密網絡具有什麼獨特優勢?以及為何無許可的計算基礎設施可能會像比特幣之於金融一樣,成為AI領域的關鍵組成部分。

文章中一個常見的主題是AI領域的指數級增長——無論是投資、計算能力還是技術發展。這與加密市場和大眾關注度的復甦相呼應。我們對這兩大技術浪潮的交匯點感到非常興奮。

你好!

在一個陽光明媚的日子裡,田納西州孟菲斯市上空,一架螺旋槳間諜飛機反覆盤旋在一座工業建築上空,機上的乘客瘋狂地拍攝下方的設施。這並不是冷戰間諜活動的場景,而是發生在2024年的一幕。目標不是軍事設施或鈾濃縮基地,而是一座曾經的家電工廠,現在這裡容納著世界上最強大的超級計算機之一。這些乘客並非外國特工,而是競爭數據中心公司的一些員工。

每隔幾十年,一項具有變革性潛力的技術就會出現,能夠毫無疑問地改變文明的軌跡。緊隨其後的是世界上最強大的實體之間的競爭,爭奪率先實現這一技術的先機。其回報巨大,而失敗的後果可能是毀滅性的,這促使這些實體迅速調動他們所有的資源——人才和資本——全力掌控這項技術。

在20世紀,有兩項技術符合這種定義——核武器和太空探索。對這兩項技術的爭奪主要集中在最強大的國家之間。美國在這兩場競賽中的勝利奠定了其作為世界主導超級大國的地位,開啟了一個空前繁榮的時代。而對於失敗的一方——納粹德國和蘇聯,其後果則是毀滅性的,甚至是致命的。

位於美國田納西州橡樹嶺的佔地44英畝的K-25巨型工廠,是用於生產第一枚原子彈所需鈾的地方(來源)。

美國的勝利付出了巨大的代價。曼哈頓計劃耗資近20億美元(約合現值300億美元),僱用了超過12萬人——相當於每千名美國人中就有一人蔘與其中。太空競賽消耗的資源更為龐大。阿波羅計劃在20世紀60年代花費了28億美元(按今天的價值計算約為3000億美元),並動員了超過40萬人——相當於每490名美國人中就有一人蔘與。1966年鼎盛時期,NASA佔據了整個美國聯邦預算的4.4%。

阿波羅11號在執行登月任務前即將發射的畫面(來源)。

2022年ChatGPT的發佈標誌著一場具有文明改變意義的新競賽的開始——對人工超級智能(ASI)的追求。儘管人工智能已經融入日常生活——管理社交媒體動態、Netflix推薦和電子郵件垃圾過濾器,但大型語言模型(LLMs)的出現有望徹底改變一切:人類生產力、媒體創作、科學研究乃至創新本身。

這一次的競爭者不再是國家(至少目前不是),而是全球最大的公司(微軟、谷歌、Meta、亞馬遜),最炙手可熱的初創公司(OpenAI、Anthropic)以及全球最富有的個人(埃隆·馬斯克)。當科技巨頭將前所未有的資本投入到構建訓練更強大模型的基礎設施時,初創公司也在吸引創紀錄的風險投資資金。而埃隆·馬斯克,則一如既往地做著他的“埃隆式”事情(受監視的數據中心屬於他的公司xAI)。

然後,還有其他人——企業、中小公司和初創公司。他們或許無意構建人工超級智能(ASI),但迫切希望利用人工智能解鎖的尖端能力來優化業務、顛覆行業或創造全新的領域。潛在的回報如此巨大,以至於每個人都在爭相分一杯由機器智能驅動的新經濟蛋糕。

AI革命的核心是其最重要的組件:圖形處理器(GPU)。這種最初為電子遊戲設計的專用計算芯片,如今已成為全球最炙手可熱的商品。對GPU的需求如此之大,以至於企業常常需要忍受數月的等待,僅為了獲得少量的芯片。這種需求讓其主要製造商NVIDIA一躍成為全球市值最高的公司。

對於無法或不願直接購買GPU的企業來說,租賃算力成為了次優選擇。這推動了AI雲服務提供商的興起——這些公司運營著高度複雜的數據中心,專門滿足AI熱潮帶來的計算需求。然而,需求的激增及其不可預測性意味著定價和可用性都無法得到保障。

我曾論述過,區塊鏈是一種“科斯式”技術,旨在“潤滑齒輪、鋪平道路、加固橋樑”,以便其他顛覆性創新能夠蓬勃發展。隨著AI成為我們時代的變革力量,GPU獲取的稀缺性和高昂成本成為了創新的障礙。一些區塊鏈公司正在介入,試圖通過基於區塊鏈的激勵機制來打破這些障礙。

在今天的文章中,我們首先從區塊鏈領域退一步,審視現代AI基礎設施的基本原理——神經網絡如何學習,為什麼GPU如此重要,以及當今的數據中心如何演變以應對前所未有的計算需求。接著,我們探討去中心化計算解決方案,分析它們在哪些領域能夠現實地與傳統提供商競爭,加密網絡的獨特優勢是什麼,以及為何儘管它們無法帶來通用人工智能(AGI),但仍然對於確保AI的惠及面具有重要意義。

讓我們從GPU為何如此重要談起。

GPU

這是《大衛》,一座高達17英尺、重達6噸的大理石雕像,由意大利文藝復興時期的天才大師米開朗基羅創作。它描繪了《大衛與歌利亞》故事中的聖經英雄,以其對人體解剖結構的完美呈現以及對透視和細節的精妙把控,被視為不朽的傑作。

與所有大理石雕塑一樣,《大衛》的起點是巨大的卡拉拉大理石毛坯。為了將它雕琢成最終壯麗的形態,米開朗基羅必須細緻地一點點敲鑿。從大刀闊斧地確定人體的基本輪廓,到逐步刻畫出肌肉的曲線、靜脈的緊張感以及眼神中微妙的決心,他逐漸追求越來越細膩的細節。米開朗基羅花了三年的時間,才將《大衛》從石頭中“解放”出來。

但為什麼在一篇關於人工智能的文章中談論一座500年前的大理石雕像呢?

如同《大衛》,每一個神經網絡最初也是一種純粹的潛能——一組初始化為隨機數(權重)的節點,像那塊巨大的卡拉拉大理石毛坯一樣沒有形狀。

這個原始模型反覆地被輸入訓練數據——成千上萬的輸入與其正確輸出配對的實例。每個通過網絡的數據點都會觸發成千上萬次的計算。在每個節點(神經元)處,輸入的連接會將輸入值乘以連接的權重,求出這些乘積的總和,並通過“激活函數”轉換結果,決定神經元的激活強度。

正如米開朗基羅會退後一步,評估他的作品並進行修正,神經網絡也會經歷一個精煉過程。每完成一次前向傳播後,網絡會將其輸出與正確答案進行比較,並計算出誤差範圍。通過一種叫做反向傳播的過程,它衡量每個連接對誤差的貢獻,並像米開朗基羅的鑿刻一樣,調整其權重值。如果某個連接導致了錯誤預測,它的影響力就會減小。如果它有助於得出正確答案,它的影響力則會增強。

當所有數據通過網絡(每個數據點完成一次前向傳播和反向傳播步驟)後,就標誌著一個“週期”(epoch)的結束。這個過程會重複多次,每次傳遞都會精煉網絡的理解。在早期的週期中,權重變化劇烈,網絡進行大範圍的調整——就像最初的大刀闊斧的鑿刻一樣。在後期的週期中,變化變得更加微妙,細緻地調整連接以達到最佳性能——就像最後的精細修飾揭示了《大衛》的細節。

最終,在成千上萬次甚至百萬次的迭代後,訓練好的模型誕生了。就像《大衛》以完成的姿態自豪地佇立一樣,神經網絡從隨機噪聲轉變為一個能夠識別模式、做出預測、生成騎著滑板車的貓圖像,或讓計算機理解並用人類語言做出迴應的系統。

為什麼是 GPU?

米開朗基羅獨自雕刻《大衛》,每次只能進行一次鑿刻,每次都需要精確計算角度、力度和位置。這種精細的精準度是他花費三年時間完成這件傑作的原因。但想象一下,如果有成千上萬的同樣技藝高超的雕刻家在《大衛》上協調工作——一組團隊雕刻頭髮的捲曲,另一組雕刻軀幹的肌肉,數百人同時雕刻面部、手部和腳部的精細細節。如此並行的努力將把三年的工作壓縮為幾天。

類似地,儘管CPU強大且精確,但它們每次只能執行一個計算。訓練一個神經網絡並不需要單一複雜的計算,而是需要數億次簡單的計算——主要是在每個節點上的乘法和加法。例如,之前提到的神經網絡樣本,只有18個節點和大約100個連接(參數),可以在CPU上在合理的時間內完成訓練。

然而,今天最強大的模型,如OpenAI的GPT-4,擁有1.8萬億個參數!即使是較小的現代模型也至少包含十億個參數。逐一進行計算訓練這些模型將需要數百年。這就是GPU的優勢所在:它們能夠同時執行大量簡單的數學計算,理想地處理多個神經網絡節點的並行計算。

現代GPU的性能令人震驚。例如,NVIDIA最新的B200 GPU包含超過2000億個晶體管,並支持每秒進行2250萬億次並行計算(2,250 TFLOPS)。單個B200 GPU能夠處理最多7400億個參數的模型。這些機器代表了現代工程的壯舉,這也解釋了為什麼NVIDIA以每個40,000美元的價格銷售每臺單位,並在五年內其股價暴漲了2500%以上。

黃仁勳展示NVIDIA B200

即便是這些強大的機器,也無法單獨完成AI模型的訓練。回想一下,在訓練過程中,每個數據實例必須單獨通過模型進行前向和後向循環。現代的大型語言模型(LLM)是在涵蓋整個互聯網的數據集上進行訓練的。例如,GPT-4處理了大約12萬億個令牌(約9萬億個單詞),而下一代模型預計將處理多達100萬億個令牌。僅使用單個GPU處理如此龐大的數據量,仍然需要幾個世紀的時間。

解決方案在於增加另一層並行性——創建GPU集群,將訓練任務分配給多個GPU,使它們作為一個統一的系統進行工作。模型訓練的工作負載可以通過三種方式進行並行化:

數據並行性:多個GPU各自維護一個完整的神經網絡模型副本,同時處理不同部分的訓練數據。每個GPU獨立處理分配的數據批次,然後定期與其他GPU同步。在這個同步期間,GPU之間相互通信,以找出它們權重的集體平均值,並更新各自的權重,使它們保持一致。因此,GPU會繼續在各自的數據批次上獨立訓練,直到再次進行同步。

隨著模型的增大,單一副本可能變得太大,無法放入一個GPU。例如,最新的B200 GPU最多隻能容納7400億個參數,而GPT-4則是一個擁有1.8萬億參數的模型。在這種情況下,單個GPU之間的數據並行性是不可行的。

張量並行性:這種方法通過將每個模型層的工作和權重分配到多個GPU來解決內存限制。GPU在每次前向傳播和反向傳播步驟中與整個集群交換中間計算結果。這些GPU通常被分組在八個單元的服務器中,通過NVLink連接——NVIDIA的高速直接GPU對GPU互連。這種設置要求GPU之間具有高帶寬(高達400 Gb/s)和低延遲的連接。張量集群有效地作為一個單一的大型GPU運行。

流水線並行性:這種方法將模型拆分到多個GPU,每個GPU處理特定的層。數據按順序流經這些GPU,就像接力賽中的每個跑者(GPU)管理自己的部分,然後傳遞接力棒。流水線並行性特別適合將不同的8-GPU服務器連接在數據中心內,使用高速InfiniBand網絡進行服務器間通信。雖然它的通信需求超過了數據並行性,但仍低於張量並行性中GPU之間頻繁交換數據的需求。

現代集群的規模令人矚目。GPT-4,擁有1.8萬億個參數和120層,訓練時需要25,000個A100 GPU。這個過程花費了三個月,費用超過6000萬美元。A100已經是兩代前的產品;如果使用今天的B200 GPU,僅需約8,000個單位和20天的訓練時間。這再次展示了AI發展的速度。

但GPT-4級別的模型如今已經顯得過時。下一代先進模型的訓練正在進行,數據中心裡託管著由10萬個B100或H100 GPU組成的集群(後者是前一代產品)。這些集群僅GPU資本開支就超過40億美元,它們是人類最強大的超級計算機,提供的計算能力至少是政府擁有的超級計算機的四倍。

除了確保原始計算能力,ASI(人工超級智能)追求者在嘗試設置這些集群時還會遇到另一個問題:電力。每個GPU消耗700瓦的電力。將10萬個GPU結合在一起,整個集群(包括支持硬件)將消耗超過150兆瓦的電力。為便於理解,這個消耗相當於一個30萬人口的城市——類似於新奧爾良或蘇黎世。

瘋狂的程度不僅僅如此。大多數ASI追求者相信,LLM(大型語言模型)擴展法則——即隨著模型大小、數據集大小和訓練計算量的增加,模型性能將可預測地改善——將繼續成立。更強大的模型訓練計劃已經在進行中。到2025年,每個訓練集群的成本預計將超過100億美元;到2027年,超過1000億美元。隨著這些數字接近美國政府在阿波羅計劃中的投資,顯而易見,為什麼實現ASI已經成為我們這個時代的定義性競賽。

從 GPT-5 開始的模型的指標是估計值

隨著集群規模的擴大,電力消耗成比例增加,明年的訓練將需要超過1GW的電力。再過一年,將需要10GW或更多。隨著這一擴展沒有減緩的跡象,預計到2030年,數據中心將消耗全球約4.5%的電力。現有的電力網絡已經難以滿足當前模型的需求,無法為未來的集群提供足夠的能源。這提出了一個關鍵問題:這些電力將從哪裡來?大科技公司正在採取雙管齊下的策略。

從長遠來看,唯一可行的解決方案是ASI追求者自給自足,生產自己的電力。考慮到它們的氣候承諾,這些電力必須來自可再生能源。核能作為主要解決方案脫穎而出。亞馬遜最近以6.5億美元購買了一個由核電廠提供電力的數據中心園區。微軟已經聘請了一位核技術負責人,並正在重啟歷史悠久的三英里島核電廠。谷歌已從加利福尼亞的Kairos Power收購了多個小型核反應堆。OpenAI的Sam Altman支持了HelionExowattOklo等能源初創公司。

微軟正在重啟三英里島核電廠(圖片來源

儘管核能的種子正在現在播種,但其果實(或電力)需要幾年才能成熟。那麼,如何解決當代模型的能源需求呢?臨時解決方案是通過多個數據中心進行分佈式訓練。微軟和谷歌等公司正將他們的訓練集群分佈在多個地點,而不是將巨大的電力需求集中在一個地方。

當然,挑戰在於如何讓這些分佈式系統高效協作。即使是光速,數據從美國東海岸到西海岸的往返大約需要43毫秒——在計算機術語中,這是一個漫長的時間。此外,如果某個芯片滯後,例如滯後10%,那麼整個訓練過程的速度都會以同樣的幅度減慢。

解決方案是通過高速光纖網絡將不同地點的數據中心連接起來,並應用前面提到的多種並行化技術來同步它們的操作。張量並行性應用於每臺服務器內的GPU,使它們能夠作為一個單獨的單元工作。管道並行性則應用於同一數據中心內的服務器鏈接,因其網絡需求較低。最後,位於不同地點的數據中心(被稱為“島嶼”)通過數據並行性定期同步信息。

之前我們提到,數據並行性對於單個GPU來說效果不好,因為它們無法獨立容納大規模模型。然而,當我們並行化的是每個包含數千個GPU的島嶼,而非單個單元時,這一動態發生了變化。訓練數據被分佈到每個島嶼,並通過相對較慢的光纖連接(與NVLink和Infiniband相比)定期同步這些島嶼。

數據中心

讓我們將重點從訓練和GPU轉移到數據中心本身。

二十年前,亞馬遜推出了Amazon Web Services(AWS)——這是歷史上最具變革性的業務之一,並創造了一個名為雲計算的全新行業。如今,雲計算行業的領導者(亞馬遜、微軟、谷歌和甲骨文)享有穩固的市場主導地位,年收入接近3000億美元,利潤率在30%到40%之間。現在,AI的興起為這個長期保持寡頭壟斷市場帶來了新的機會。

GPU密集型的AI數據中心與傳統數據中心在物理需求、技術複雜性和經濟性方面有著顯著的差異。

我們之前討論過GPU的高能耗,這使得AI數據中心的功率密度大大增加,因此也產生更多的熱量。傳統的數據中心使用巨大的風扇(空氣冷卻)來散熱,但這種方法對AI設施來說既不充分,也不具備經濟可行性。相反,AI數據中心正在採用液冷系統,其中水塊直接連接到GPU和其他高溫組件,以更高效、安靜地散熱(B200 GPU自帶這種架構)。支持液冷系統需要增加大型冷卻塔、集中式水系統設施以及用於輸送水到各GPU的管道,這是對數據中心基礎設施的根本性改造。

除了更高的能耗外,AI數據中心還有獨特的負載需求。傳統數據中心保持可預測的電力消耗,而AI工作負載的功率使用模式波動性更大。這種波動性發生在GPU週期性地在100%負載和幾乎停止之間切換,這發生在訓練達到檢查點時,此時權重要麼存儲到內存中,要麼像我們之前看到的那樣,與其他島嶼同步。AI數據中心需要專門的電力基礎設施來應對這些負載波動。

構建GPU集群比構建常規計算雲更為複雜。GPU需要非常快速地相互通信。為此,它們必須非常緊密地排列在一起。一個典型的AI設施需要超過200,000條特殊電纜,稱為InfiniBand連接。這些電纜讓GPU之間可以通信。如果其中一條電纜出現故障,整個系統都會停擺。直到該電纜修復,訓練過程才會繼續進行。

這些基礎設施需求使得傳統數據中心幾乎無法通過簡單的升級改造來適配高性能GPU並使其支持AI。這種升級將需要幾乎完全的結構重建。因此,各公司正在從頭開始建設專為AI設計的新數據中心,不同的組織在不同規模上進行這一建設。

在這一領域,領先的科技公司正在爭相建設自己的AI數據中心。Meta正在大力投資專門為其自身AI開發而建的設施,將其視為直接的資本投資,因為它不提供雲服務。微軟正在建設同樣龐大的數據中心,以支持其自己的AI項目,併為OpenAI等重要客戶提供服務。甲骨文也積極進入這一領域,並將OpenAI作為重要客戶。亞馬遜繼續擴大其基礎設施,特別是為了支持像Anthropic這樣的新興AI公司。埃隆·馬斯克的xAI則選擇建立自己的100,000個GPU集群,避免依賴其他公司。

xAI的100,000 H100 GPU數據中心內部(圖片來源

除了現有的大公司外,”新雲”也在崛起——這些是專門為AI工作負載提供GPU計算的雲服務提供商。這些新雲根據規模分為兩類。

大型新雲提供商,包括CoreWeaveCrusoeLLama Labs,運營著超過2,000個GPU的集群。它們與傳統雲服務提供商的區別有兩個方面:提供定製化的基礎設施解決方案,而非標準化的套餐,並且要求長期客戶承諾,而不是按使用付費的安排。

它們的商業模式利用這些長期合同和客戶的信用狀況來確保基礎設施融資。收入來自為專門服務收取的高額費用,利潤則來自低融資成本與客戶支付之間的差額。

這種安排通常是如何運作的:一個新雲提供商與一家資金充裕的AI初創公司簽訂三年合同,提供10,000個H100 GPU,月費為4,000萬美元。通過這個每月收入1.44億美元的保證收入流,提供商獲得了有利的銀行融資(6%的利率),以購買並安裝價值7億美元的基礎設施。每月的收入4,000萬美元覆蓋了1,000萬美元的運營成本和2,000萬美元的貸款償還,產生了1,000萬美元的月度利潤,而初創公司則獲得定製的專用計算能力。

這種模式要求極其謹慎地選擇客戶。提供商通常尋找具有大額現金儲備或強大風險投資支持的公司——通常是估值5億美元或以上的公司。

小型新雲提供商提供2,000個或更少GPU的集群,面向AI市場的不同細分群體——小型和中型初創公司。這些公司通常訓練較小的模型(最多70億參數)或對開源模型進行微調。(微調是將基礎模型適應特定用例的過程。)這兩種工作負載需要適度但專用的計算能力,且時長較短。

這些提供商提供按需計算,按小時收費,提供固定時長的不間斷集群訪問。雖然這比長期合同更貴,但它為初創公司提供了靈活性,讓它們可以在不需要簽訂數百萬美元協議的情況下進行實驗。

最後,除了雲巨頭和新雲提供商外,我們還有AI基礎設施空間的中介平臺和聚合商。這些中介平臺不擁有GPU基礎設施,而是將計算資源的所有者與需要這些資源的客戶連接起來。

平臺提供商如HydraHostFluidstack充當GPU計算的Shopify。就像Shopify使商家能夠啟動在線商店而不必構建電商基礎設施一樣,這些平臺允許數據中心運營商和GPU擁有者提供計算服務,而不必開發自己的客戶接口。它們提供運行GPU計算業務的完整技術包,包括基礎設施管理工具、客戶配置系統和計費解決方案。

市場聚合商如Vast.ai則充當GPU世界的Amazon。它們創建了一個市場,將來自不同提供商的多樣化計算資源結合起來——從消費者級的RTX顯卡到專業級的H100 GPU。GPU所有者列出他們的資源,並附上詳細的性能指標和可靠性評分,而客戶則通過自助平臺購買計算時間。

推理

到目前為止,我們的討論主要集中在訓練(或微調)模型。然而,一旦模型訓練完成,就必須將其部署以服務最終用戶,這個過程被稱為推理。每次你與ChatGPT對話時,實際上是在使用運行推理工作負載的GPU,這些工作負載接收你的輸入並生成模型的迴應。讓我們再回到討論大理石雕像的比喻。

這是大衛像——不是米開朗基羅的原作,而是1857年為倫敦維多利亞和阿爾伯特博物館委託製作的石膏鑄像。米開朗基羅在佛羅倫薩花費了三年時間,仔細雕刻大理石以創作原作,而這座石膏鑄像則是通過直接模製獲得的——完美地再現了米開朗基羅雕刻的每一個曲線、角度和細節。創作性的工作只進行了一次,之後就變成了忠實複製這些特徵。今天,大衛像的複製品無處不在,從博物館的大廳到拉斯維加斯的賭場庭院都有它的身影。

這正是AI推理的工作方式。訓練一個大型語言模型就像米開朗基羅的原作雕刻過程——計算密集、耗時且資源需求大,因為模型通過數百萬次細微調整逐漸學習語言的正確“形狀”。但使用訓練好的模型——推理——更像是在製作複製品。當你與ChatGPT對話時,你並不是在從零開始教它語言,而是在使用一個已經完美調整的模型副本(就像大衛的精準曲線和角度一樣)。

推理工作負載與訓練有根本的不同。訓練需要大規模、密集的最新GPU集群(如H100)來處理密集的計算,而推理則可以在單個GPU服務器上使用較老的硬件(如A100,甚至是消費者級的顯卡)運行,從而顯著降低成本。儘管如此,推理工作負載仍然有其獨特的需求:

  • 廣泛的地理覆蓋:模型需要在多個數據中心部署,以確保新加坡的用戶和舊金山的用戶獲得同樣快速的響應。
  • 高可用性:與訓練可以暫停和恢復不同,推理需要24/7全天候可用,因為用戶期望隨時獲得即時響應。
  • 冗餘:需要多個服務器隨時準備處理請求,以防某些服務器出現故障或過載。

這些特點使得推理工作負載非常適合使用現貨定價模型。在現貨定價下,GPU資源通常以比按需定價低30-50%的顯著折扣提供——但服務可能會在高優先級客戶需要資源時暫停。這個模型非常適合推理,因為冗餘部署可以在中斷時迅速將工作負載切換到可用的GPU上。

在GPU和AI雲計算的背景下,我們現在可以開始探討加密貨幣如何融入其中了。讓我們(終於)開始吧。

加密技術的定位

項目和報告經常引用彼得·蒂爾(Peter Thiel)的觀點,即“人工智能是集中的,加密技術是去中心化的”來討論加密技術在AI訓練中的作用。儘管蒂爾的說法無疑是正確的,但我們剛剛看到大量證據表明大科技公司在訓練強大AI方面擁有明顯的優勢——這一觀點常被錯誤引用,以暗示加密技術和去中心化計算是對抗大科技公司影響力的主要解決方案。

這種說法類似於之前關於加密技術將徹底改變社交媒體、遊戲以及無數其他行業的誇大言論。這些說法不僅無益,接下來我將說明,它們在短期內至少是不現實的。

相反,我將採取一種更務實的方式。我假設一個尋求計算資源的AI初創公司並不關心去中心化的原則或對大科技公司的意識形態對抗。他們面對的問題是——如何以最低的成本獲得可靠的GPU計算資源。如果一個加密項目能比非加密方案提供更好的解決方案,他們就會選擇使用它。

為此,我們首先需要了解加密項目的競爭對手是誰。之前我們已經討論過不同類別的AI雲提供商——大科技公司和超大規模供應商、大型新雲、小型新雲、平臺提供商和市場平臺。

去中心化計算(如所有DePIN項目)背後的基本論點是,當前的計算市場效率低下。GPU需求異常高漲,而供應則分散在全球各地的數據中心和個人家中且未被充分利用。該領域的大多數項目通過整合這些分散的供應來減少低效問題,直接與市場平臺競爭。

在此基礎上,讓我們看看這些項目(以及計算市場平臺總體)如何在不同的AI工作負載中提供幫助——包括訓練、微調和推理。

訓練

首先,需要明確的是,ASI(人工超級智能)不會在一個去中心化的GPU全球網絡上進行訓練,至少在當前的AI發展路徑上不會如此。以下是原因。

之前我們已經討論過基礎模型集群的規模有多龐大。僅僅是開始具備競爭力,你就需要世界上10萬個最強大的GPU。而且,這一數字每年都在增長。預計到2026年,一次訓練的成本將超過1000億美元,可能需要一百萬個以上的GPU。

只有那些擁有大型新雲支持和直接與Nvidia合作關係的大科技公司才能組建這樣規模的集群。請記住,這是爭奪ASI的競賽,所有參與者都高度動機充足且資金充裕。如果有額外的大量GPU供應(實際上並沒有),這些公司也會是首先搶購的對象。

即使某個加密項目奇蹟般地聚集了所需的計算資源,去中心化ASI開發仍面臨兩個根本性障礙:

首先,GPU仍需連接成大型集群才能有效運作。即使這些集群分佈在城市中的不同區域,它們也必須通過專用光纖線路連接。在去中心化環境下,這兩者都難以實現。除了獲取GPU外,建立AI專用數據中心需要周密的規劃——通常需耗時一到兩年。(xAI在短短122天內完成了,但埃隆·馬斯克短期內似乎不會推出任何代幣。)

其次,僅僅創建一個AI數據中心並不足以誕生超級智能AI。正如Anthropic創始人Dario Amodei最近所解釋的,AI的擴展類似於化學反應。化學反應需要多種試劑按精確比例才能進行,AI擴展的成功同樣依賴於三個關鍵要素的同步增長:更大的網絡、更長的訓練時間和更大的數據集。如果只擴大其中一個因素而忽略其他部分,整個過程就會停滯不前。

即使我們設法同時獲得計算資源並讓這些集群協同工作,為了讓訓練的模型足夠優秀,我們仍然需要大量高質量的數據。沒有大科技公司的專有數據源、簽訂數百萬美元合同來獲取網絡論壇和媒體資源的資金,或生成合成數據的現有模型,要獲得足夠的訓練數據幾乎是不可能的。

最近有一些關於擴展法則可能進入平臺期的猜測,認為大型語言模型(LLM)性能可能觸頂。有些人將此視為去中心化AI開發的機會。然而,這忽略了一個關鍵因素——人才集中。當前的大科技公司和AI實驗室聚集了全球頂尖的研究人員。任何通往AGI的突破性替代路徑都可能來自這些中心。在競爭激烈的環境下,這類發現將被嚴密保密。

基於上述論點,我可以99.99%確定,ASI的訓練——甚至是世界上最強大的模型——不會依賴去中心化的計算項目。那麼,加密技術究竟能在哪些模型訓練中發揮作用?

要在地理位置不同的GPU集群之間進行模型訓練,我們需要在它們之間實現數據並行。(回想一下,數據並行是如何讓不同的GPU島嶼分別處理訓練數據塊,並與彼此同步的。)模型規模越大,需要在這些島嶼之間交換的數據量就越大。對於擁有超過一萬億參數的前沿模型,其所需帶寬足以需要專用光纖連接。

然而,對於較小的模型,帶寬需求會按比例降低。最近在低通信訓練算法方面的突破,尤其是延遲同步技術,為以去中心化方式訓練小型到中型模型創造了希望。兩個團隊在這些實驗性研究中處於領先地位。

Nous Research是一家AI加速器公司,也是開源AI開發的領導者。他們因Hermes系列語言模型和創新項目World Sim而知名。今年早些時候,他們運營了一個用於LLM排名的BitTensor子網,並通過發佈DisTrO(基於互聯網的分佈式訓練)項目,成功在去中心化環境中訓練了一個1.2B參數的Llama-2模型,實現了857倍的GPU間帶寬需求減少。

Nous Research 的 DisTrO 報告

Prime Intellect 是一家專注於大規模去中心化 AI 基礎設施開發的初創公司,致力於聚合全球計算資源,通過分佈式系統實現最先進模型的協作訓練。他們的 OpenDiLoCo 框架(實現了 DeepMind 的分佈式低通信方法)成功在跨越兩個大洲和三個國家的環境下訓練了一個十億參數的模型,同時保持了 90-95% 的計算資源利用率。

那麼,這些去中心化的訓練過程是如何運作的?

傳統的數據並行方法要求 GPU 在每一步訓練後共享並平均其權重,這在互聯網連接環境下幾乎不可能實現。而這些項目允許每個 GPU“島嶼”獨立訓練數百步後再進行同步。可以將其想象為不同的研究團隊共同參與同一個項目:他們不是不斷互相彙報進度,而是在取得重大進展後才分享成果。

DisTrO 和 OpenDiLoCo 每 500 步才同步一次,並採用雙優化器方法:

  • “內層”優化器處理每個 GPU 上的本地更新,就像一個團隊在做局部發現
  • “外層”優化器管理 GPU 之間的週期性同步,像是一個協調人整合所有發現

在同步時,他們並非分享所有權重,而是共享“偽梯度”——即當前權重與上次同步權重之間的差異。這種方法非常高效,就像只分享文檔的更改部分,而非每次都發送整份文檔。

Prime Intellect 的 INTELLECT-1 是 OpenDiLoCo 的實際應用,進一步推動了這一方法,正在訓練一個 100 億參數的模型——這是迄今為止最大規模的去中心化訓練嘗試。他們引入了關鍵優化措施,例如:

  • 壓縮需要共享的數據,大幅提升通信效率
  • 內置備份系統,即使部分計算機脫機也能繼續訓練
  • 將同步過程的時間縮短到不到一分鐘

INTELLECT-1 由分佈在全球的 20 多個 GPU 集群共同訓練,近期已完成預訓練,並即將作為一個完全開源的模型發佈。

INTELLECT-1 訓練儀表板

Macrocosmos 這樣的團隊正在使用類似的算法在 Bittensor 生態系統中訓練模型

如果這些去中心化訓練算法能夠持續改進,它們可能在下一代 GPU 的支持下,具備訓練高達 1000 億參數模型的能力。即使是這種規模的模型,也可以在許多用例中發揮重要作用:

  1. 用於研究和實驗的新型架構,不需要前沿級計算資源
  2. 優化性能和速度的小型通用模型,而非追求純粹的智能
  3. 針對特定領域的專用模型

微調

微調是指在一個預訓練的基礎模型(通常是 Meta、Mistral 或阿里巴巴發佈的開源模型)基礎上,使用特定數據集進一步訓練,以適應特定任務或領域。這與從頭開始訓練相比所需的計算量要少得多,因為模型已經學習了通用的語言模式,只需調整權重以適應新的領域。

微調的計算需求隨著模型規模增長而變化。假設使用 H100 進行訓練:

  • 小型模型(1-7B 參數):單個 GPU,12 小時內完成
  • 中型模型(7-13B 參數):2-4 個 GPU 集群,36 小時內完成
  • 大型模型(>30B 參數):最多 8 個 GPU 集群,4 天內完成

根據這些規格,微調不需要之前討論的複雜分佈式訓練算法。按需模型,即開發者短期租用 GPU 集群進行集中訓練,可以很好地支持微調工作。具備充足 GPU 資源的去中心化計算市場在處理此類工作負載方面處於理想位置。

推理

推理是去中心化計算市場實現產品市場契合最清晰的路徑。諷刺的是,在去中心化訓練的討論中,推理往往是最少被提及的工作流程。這主要有兩個原因:一是推理缺乏“十萬 GPU 神級模型”訓練的吸引力,二是由於當前 AI 革命的階段性特點。

截至目前,大部分計算資源確實都用於訓練。通往 ASI 的競賽導致了在訓練基礎設施上的大量前期投資。然而,隨著 AI 應用從研究轉向生產,這種平衡不可避免地會發生變化。為了使 AI 相關的商業模式可持續發展,從推理中產生的收入必須超過訓練和推理的總成本。儘管訓練 GPT-4 費用巨大,但那只是一次性成本。持續的計算開銷——以及 OpenAI 通往盈利的路徑——則依賴於向付費用戶提供數十億次推理請求服務。

計算市場,無論是去中心化的還是傳統的,通過匯聚全球各種 GPU 型號(包括新舊 GPU),在推理工作負載中處於獨特的有利位置。

計算市場在推理任務中天然具有優勢:廣泛的地理分佈、持續的正常運行時間、系統冗餘以及跨 GPU 代際的兼容性,這些特點與推理需求完美契合。

但為什麼要加密呢?

我們已經討論了去中心化計算可以和不能幫助的不同工作流程。現在,我們需要回答另一個重要問題:為什麼開發者會選擇從去中心化的提供商獲取計算資源,而不是從中心化的提供商?去中心化解決方案提供了哪些具有吸引力的獨特優勢?

價格與範圍

穩定幣通過提供比傳統跨境支付更優越的替代方案,實現了產品市場契合。其中一個重要因素是穩定幣的成本更低!同樣地,影響 AI 開發者選擇雲提供商的最大因素是成本。去中心化計算提供商要想具備競爭力,首先必須提供更具優勢的定價。

計算市場,如同所有市場,是一個依賴網絡效應的業務。平臺上的 GPU 供應越多,客戶的流動性和可用性就越高,從而吸引更多需求。隨著需求的增長,這進一步激勵更多 GPU 擁有者加入網絡,形成一個良性循環。供應的增加還通過更優匹配和減少閒置時間來實現更具競爭力的定價。當客戶能夠以有吸引力的價格持續獲得所需的計算資源時,他們更可能在平臺上建立長期的技術依賴,從而進一步增強網絡效應。

這種動態在推理工作負載中尤為強大,地理分佈廣泛的供應還能通過降低端用戶的延遲來提升產品體驗。第一個在規模上實現這種流動性飛輪效應的市場將獲得顯著的競爭優勢,因為一旦供應商和客戶與平臺的工具和工作流集成,就會面臨轉換成本。

GPU 市場的網絡效應飛輪

在這種贏家通吃的市場中,引導網絡啟動並達到逃逸速度是最關鍵的階段。在這方面,加密為去中心化計算項目提供了中心化競爭對手所不具備的強大工具:代幣激勵。

其機制可以是簡單但卻極具影響力的。協議首先推出一個代幣,包含通脹獎勵計劃,並可能通過空投將初始分配發放給早期貢獻者。這些代幣發行將成為推動市場供需雙方的主要工具。

對於 GPU 提供商,獎勵結構需要精心設計,以塑造供應端行為。提供商根據貢獻的計算資源和利用率獲得代幣,但系統應超越簡單的線性獎勵。協議可以實施動態獎勵倍增機制,以解決地理或硬件類型的不平衡——類似於 Uber 使用高峰定價來激勵高需求地區的司機。

例如,提供在供應不足地區的計算資源可能獲得 1.5 倍獎勵,而提供暫時稀缺的 GPU 類型可能獲得 2 倍獎勵。基於持續的利用率對獎勵系統進行分級,可以鼓勵提供商保持穩定的可用性,而不是機會性地在不同平臺之間切換。

在需求端,客戶可以通過獲得代幣獎勵來有效地補貼使用成本。協議可以提供更高的獎勵來鼓勵更長期的計算承諾,從而激勵用戶在平臺上建立更深的技術依賴。這些獎勵還可以進一步與平臺的戰略優先事項對齊,例如獲取特定區域的需求。

計算的基礎費率可以保持在市場價格或略低於市場價格,協議可以使用 zkTLS 預言機來持續監控和匹配競爭對手的定價。代幣獎勵則作為這些競爭性基礎費率之上的額外激勵層。這種雙重定價模式允許平臺在保持價格競爭力的同時,通過代幣激勵來引導特定行為,從而加強網絡效應。

通過分發代幣激勵,提供商和客戶都將開始在網絡中積累權益。雖然其中一些人可能會出售這些權益,但另一些人會持有,從而成為平臺的利益相關者和推廣者。這些參與者將對網絡的成功充滿興趣,不僅限於直接使用或提供計算資源,而是進一步推動網絡的增長和普及。

隨著時間的推移,當網絡達到逃逸速度並建立起強大的網絡效應後,代幣激勵可以逐步減少。作為最大市場的自然優勢——更好的匹配、更高的利用率、更廣泛的地理覆蓋——將成為自我持續的增長動力。

代幣激勵如何加速 GPU 市場的網絡效應飛輪

審查阻力

儘管價格和資源廣度是重要的差異化因素,但去中心化計算網絡還能應對一個日益嚴重的問題:來自中心化服務提供商的運營限制。傳統雲服務商已經展示了其基於內容政策和外部壓力暫停或終止服務的意願。這些先例引發了人們對類似政策可能延伸至 AI 模型開發和部署的合理擔憂。

隨著 AI 模型日趨先進並應用於越來越多樣化的場景,雲提供商可能會像現有內容審核機制一樣,對模型訓練和服務實施限制。這種情況可能不僅影響 NSFW 內容和有爭議的話題,還可能波及醫療影像、科學研究或創意藝術等領域的合法用途,而這些用途可能因過於謹慎的自動過濾系統而被錯誤阻止。

去中心化網絡通過讓市場參與者自行決定基礎設施的使用,為創新提供了一個更自由、更不受限制的環境。

然而,無權限架構的另一面是隱私保護的挑戰。當計算資源分佈於多個提供商網絡,而非集中在單一可信數據中心時,開發者需要更加註重數據安全。儘管加密技術和可信執行環境(TEE)能夠提供幫助,但開發者必須根據具體需求在審查阻力與隱私保護之間權衡。

信任與合約執行

由於對 AI 計算資源的需求極高,GPU 提供商可能利用其市場地位,從成功客戶中榨取最大利潤。去年,知名獨立開發者 Pieter Levels 分享了一些實例,包括他和其他開發者在公開了 AI 應用的收入後,服務商突然將價格提高了 600% 以上。

去中心化系統能夠提供針對這一問題的解決方案——基於信任最小化的合約執行。當協議被編碼在鏈上而非埋藏於服務條款中時,合約將變得透明且不可篡改。提供商無法在合同執行期間隨意漲價或改變條款,除非這些變更經過協議明確同意。

除了價格問題,去中心化網絡還能利用可信執行環境(TEEs)來提供可驗證的計算資源。這確保了開發者實際獲得其所支付的 GPU 資源,無論是硬件規格還是專用訪問。例如,當開發者支付了用於模型訓練的 8 個 H100 GPU 的專用訪問費用時,密碼學證明能夠驗證其工作負載確實運行在 80GB 顯存的 H100 上,而不是被暗中降級到低端 GPU 或與其他用戶共享資源。

無需許可

去中心化計算網絡可以為開發者提供真正無需許可的替代方案。與傳統提供商需要進行廣泛的 KYC 流程和信用檢查不同,任何人都可以加入這些網絡並開始消耗或提供計算資源。這大大降低了進入門檻,尤其對於新興市場的開發者或從事實驗性項目的開發者來說尤為重要。

當我們考慮到 AI 智能體的未來時,這種無需許可的特性變得更加重要。AI 智能體剛剛開始找到自己的立足點,垂直整合的智能體預計將超越 SaaS 行業的規模。像 Truth TerminalZerebro 這樣的項目正在展示智能體獲得自主性的初步跡象,學習如何使用社交媒體和圖像生成器等外部工具。

隨著這些自治系統變得越來越複雜,它們可能需要動態地為自己配置計算資源。去中心化網絡中,合約可以通過代碼而非人工中介信任地執行,這正是未來智能體所需的自然基礎設施。智能體可以自主談判合約、監控性能並根據需求調整計算使用——這一切都無需人工干預或批准。

市場格局

去中心化計算網絡的概念並不新穎——在當前的 AI 熱潮之前,許多項目就已經在努力使稀缺的計算資源更加普及。Render Network 自 2017 年起就開始運營,聚合 GPU 資源用於計算機圖形渲染。Akash 於 2020 年推出,旨在創建一個開放的通用計算市場。這兩個項目在各自的領域取得了適度的成功,但現在都集中於 AI 工作負載。

同樣,像 FilecoinArweave 這樣的去中心化存儲網絡也在向計算領域擴展。他們認識到,隨著 AI 成為存儲和計算的主要消費方,提供集成解決方案是有意義的。

正如傳統數據中心在與專門的 AI 設施競爭時面臨困難,這些成熟的網絡也在與原生 AI 解決方案的競爭中遇到了上坡路。它們缺乏執行 AI 工作負載所需複雜編排的基因。相反,它們正在通過成為其他 AI 專用網絡的計算提供商來找到自己的位置。例如,Render 和 Akash 現在都在 io.net 的市場上提供其 GPU。

這些新的 AI 原生市場是誰?io.net 是聚合企業級 GPU 供應的早期領導者之一,其網絡上有超過 30 萬個經過驗證的 GPU。它們聲稱提供比傳統集中式提供商節省 90% 的成本,並且日收益超過 25,000 美元(年化 900 萬美元)。類似地,Aethir 聚合了超過 40,000 個 GPU(包括 4,000 多個 H100),以支持 AI 和雲計算應用。

之前我們討論過 Prime Intellect 正在為大規模去中心化訓練創建框架。除了這些努力,它們還提供一個 GPU 市場,用戶可以按需租用 H100。Gensyn 是另一個在去中心化訓練上押注的項目,採用類似的訓練框架加上 GPU 市場的方式。

雖然這些都是支持訓練和推理的工作負載無關市場(支持兩者),但一些項目專注於僅用於推理——這是我們最感興趣的去中心化計算工作負載。其中最重要的是 Exo Labs,它使用戶能夠在日常設備上運行前沿級 LLM。它們開發了一個開源平臺,允許將 AI 推理任務分配到多個設備上,如 iPhone、Android 和 Mac。最近,他們展示瞭如何在四臺 M4 Pro Mac Mini 上分佈式運行一個 70B 模型(可擴展到 400B)。

關鍵基礎設施

當中本聰在 2008 年推出比特幣時,它的好處——數字黃金、有限供應和抗審查的貨幣——只是理論上的。儘管傳統金融體系有其缺陷,但它仍在運作。中央銀行尚未展開前所未有的貨幣印刷。國際制裁尚未被用作對整個經濟體的武器。對替代方案的需求顯得更像是學術問題,而非緊迫問題。

經歷了十年的量化寬鬆,直到 COVID 期間的貨幣擴張,比特幣的理論好處才得以轉化為切實的價值。如今,隨著通貨膨脹侵蝕儲蓄、地緣政治緊張局勢威脅美元主導地位,比特幣作為“數字黃金”的角色已從密碼朋克的夢想發展成被機構和國家接受的資產。

穩定幣也經歷了類似的過程。隨著以太坊等通用區塊鏈的出現,穩定幣迅速成為最具前景的用例之一。然而,技術的逐步改進以及阿根廷和土耳其等國的經濟遭受通貨膨脹的摧殘,才使得穩定幣從一種小眾的加密創新,發展為每年流轉數萬億美元的關鍵金融基礎設施。

加密技術本質上是一種防禦性技術——在順境中看似不必要的創新,在危機時刻變得至關重要。這些解決方案的需求只有在現有系統崩潰或暴露其真實面目時才顯現出來。

今天,我們正生活在 AI 的黃金時代。風險投資資金流動自由,公司爭相提供最低價格,限制措施(如果有的話)也是罕見的。在這種環境下,去中心化的替代方案似乎顯得不那麼必要。為什麼要處理代幣經濟學和證明系統的複雜性,當傳統提供商完全足夠呢?

但從過去的主要技術浪潮來看,這種恩惠是暫時的。我們距離 AI 革命才剛剛開始兩年。當技術逐漸成熟,AI 競賽的贏家浮現時,它們的真正實力將顯現出來。今天提供慷慨訪問的公司,最終將通過定價、政策、權限等方式行使控制。

這不僅僅是另一輪技術週期的問題。AI 正在成為文明的新基底——我們處理信息、創造藝術、做決策並最終進化的視角。計算不僅僅是一種資源,它是智能本身的貨幣。控制其流動的人,將塑造人類的認知邊界。

去中心化計算不僅僅是為了提供更便宜的 GPU 或更多靈活的部署選項(雖然必須提供這兩者以獲得成功)。它是為了確保對人工智能——人類最具變革性的技術——的訪問保持不可審查和主權。它是我們對抗未來的盾牌,在那個未來,少數公司不僅決定誰能使用 AI,還決定他們如何使用 AI。

我們今天構建這些系統,不是因為它們現在就必要,而是因為它們明天將變得至關重要。當 AI 成為社會的基礎設施之一時,去中心化計算將不僅僅是一個替代方案——它將像比特幣和穩定幣對抗金融控制一樣,成為抵抗數字霸權的關鍵。

人工超智能的競賽可能超出了去中心化系統的能力範圍。但確保這份智能的果實對所有人保持可及?這是值得一搏的競賽。

免責聲明:

  1. 本文轉載自【Decentralized.co】,轉發原文標題:《去中心化計算》。所有版權歸原作者所有【Shlok Khemani】。若對本次轉載有異議,請聯繫 Gate Learn 團隊,他們會及時處理。
  2. 免責聲明:本文所表達的觀點和意見僅代表作者個人觀點,不構成任何投資建議。
  3. Gate Learn 團隊將文章翻譯成其他語言。除非另有說明,否則禁止複製、分發或抄襲翻譯文章。

為什麼去中心化計算是人工智能發展的關鍵驅動力?

進階1/7/2025, 6:56:23 AM
今天的文章探討了加密領域中新興但常被誤解的去中心化計算板塊。我們深入分析了AI基礎設施領域,以瞭解去中心化替代方案在實際中可以競爭的領域。

轉發原文標題:《去中心化計算》

今天的文章探討了加密領域中新興但常被誤解的去中心化計算板塊。我們深入分析了AI基礎設施領域,以瞭解去中心化替代方案在實際中能夠競爭的領域。

我們將探討以下問題:ASI是否可以在分佈式網絡上訓練?加密網絡具有什麼獨特優勢?以及為何無許可的計算基礎設施可能會像比特幣之於金融一樣,成為AI領域的關鍵組成部分。

文章中一個常見的主題是AI領域的指數級增長——無論是投資、計算能力還是技術發展。這與加密市場和大眾關注度的復甦相呼應。我們對這兩大技術浪潮的交匯點感到非常興奮。

你好!

在一個陽光明媚的日子裡,田納西州孟菲斯市上空,一架螺旋槳間諜飛機反覆盤旋在一座工業建築上空,機上的乘客瘋狂地拍攝下方的設施。這並不是冷戰間諜活動的場景,而是發生在2024年的一幕。目標不是軍事設施或鈾濃縮基地,而是一座曾經的家電工廠,現在這裡容納著世界上最強大的超級計算機之一。這些乘客並非外國特工,而是競爭數據中心公司的一些員工。

每隔幾十年,一項具有變革性潛力的技術就會出現,能夠毫無疑問地改變文明的軌跡。緊隨其後的是世界上最強大的實體之間的競爭,爭奪率先實現這一技術的先機。其回報巨大,而失敗的後果可能是毀滅性的,這促使這些實體迅速調動他們所有的資源——人才和資本——全力掌控這項技術。

在20世紀,有兩項技術符合這種定義——核武器和太空探索。對這兩項技術的爭奪主要集中在最強大的國家之間。美國在這兩場競賽中的勝利奠定了其作為世界主導超級大國的地位,開啟了一個空前繁榮的時代。而對於失敗的一方——納粹德國和蘇聯,其後果則是毀滅性的,甚至是致命的。

位於美國田納西州橡樹嶺的佔地44英畝的K-25巨型工廠,是用於生產第一枚原子彈所需鈾的地方(來源)。

美國的勝利付出了巨大的代價。曼哈頓計劃耗資近20億美元(約合現值300億美元),僱用了超過12萬人——相當於每千名美國人中就有一人蔘與其中。太空競賽消耗的資源更為龐大。阿波羅計劃在20世紀60年代花費了28億美元(按今天的價值計算約為3000億美元),並動員了超過40萬人——相當於每490名美國人中就有一人蔘與。1966年鼎盛時期,NASA佔據了整個美國聯邦預算的4.4%。

阿波羅11號在執行登月任務前即將發射的畫面(來源)。

2022年ChatGPT的發佈標誌著一場具有文明改變意義的新競賽的開始——對人工超級智能(ASI)的追求。儘管人工智能已經融入日常生活——管理社交媒體動態、Netflix推薦和電子郵件垃圾過濾器,但大型語言模型(LLMs)的出現有望徹底改變一切:人類生產力、媒體創作、科學研究乃至創新本身。

這一次的競爭者不再是國家(至少目前不是),而是全球最大的公司(微軟、谷歌、Meta、亞馬遜),最炙手可熱的初創公司(OpenAI、Anthropic)以及全球最富有的個人(埃隆·馬斯克)。當科技巨頭將前所未有的資本投入到構建訓練更強大模型的基礎設施時,初創公司也在吸引創紀錄的風險投資資金。而埃隆·馬斯克,則一如既往地做著他的“埃隆式”事情(受監視的數據中心屬於他的公司xAI)。

然後,還有其他人——企業、中小公司和初創公司。他們或許無意構建人工超級智能(ASI),但迫切希望利用人工智能解鎖的尖端能力來優化業務、顛覆行業或創造全新的領域。潛在的回報如此巨大,以至於每個人都在爭相分一杯由機器智能驅動的新經濟蛋糕。

AI革命的核心是其最重要的組件:圖形處理器(GPU)。這種最初為電子遊戲設計的專用計算芯片,如今已成為全球最炙手可熱的商品。對GPU的需求如此之大,以至於企業常常需要忍受數月的等待,僅為了獲得少量的芯片。這種需求讓其主要製造商NVIDIA一躍成為全球市值最高的公司。

對於無法或不願直接購買GPU的企業來說,租賃算力成為了次優選擇。這推動了AI雲服務提供商的興起——這些公司運營著高度複雜的數據中心,專門滿足AI熱潮帶來的計算需求。然而,需求的激增及其不可預測性意味著定價和可用性都無法得到保障。

我曾論述過,區塊鏈是一種“科斯式”技術,旨在“潤滑齒輪、鋪平道路、加固橋樑”,以便其他顛覆性創新能夠蓬勃發展。隨著AI成為我們時代的變革力量,GPU獲取的稀缺性和高昂成本成為了創新的障礙。一些區塊鏈公司正在介入,試圖通過基於區塊鏈的激勵機制來打破這些障礙。

在今天的文章中,我們首先從區塊鏈領域退一步,審視現代AI基礎設施的基本原理——神經網絡如何學習,為什麼GPU如此重要,以及當今的數據中心如何演變以應對前所未有的計算需求。接著,我們探討去中心化計算解決方案,分析它們在哪些領域能夠現實地與傳統提供商競爭,加密網絡的獨特優勢是什麼,以及為何儘管它們無法帶來通用人工智能(AGI),但仍然對於確保AI的惠及面具有重要意義。

讓我們從GPU為何如此重要談起。

GPU

這是《大衛》,一座高達17英尺、重達6噸的大理石雕像,由意大利文藝復興時期的天才大師米開朗基羅創作。它描繪了《大衛與歌利亞》故事中的聖經英雄,以其對人體解剖結構的完美呈現以及對透視和細節的精妙把控,被視為不朽的傑作。

與所有大理石雕塑一樣,《大衛》的起點是巨大的卡拉拉大理石毛坯。為了將它雕琢成最終壯麗的形態,米開朗基羅必須細緻地一點點敲鑿。從大刀闊斧地確定人體的基本輪廓,到逐步刻畫出肌肉的曲線、靜脈的緊張感以及眼神中微妙的決心,他逐漸追求越來越細膩的細節。米開朗基羅花了三年的時間,才將《大衛》從石頭中“解放”出來。

但為什麼在一篇關於人工智能的文章中談論一座500年前的大理石雕像呢?

如同《大衛》,每一個神經網絡最初也是一種純粹的潛能——一組初始化為隨機數(權重)的節點,像那塊巨大的卡拉拉大理石毛坯一樣沒有形狀。

這個原始模型反覆地被輸入訓練數據——成千上萬的輸入與其正確輸出配對的實例。每個通過網絡的數據點都會觸發成千上萬次的計算。在每個節點(神經元)處,輸入的連接會將輸入值乘以連接的權重,求出這些乘積的總和,並通過“激活函數”轉換結果,決定神經元的激活強度。

正如米開朗基羅會退後一步,評估他的作品並進行修正,神經網絡也會經歷一個精煉過程。每完成一次前向傳播後,網絡會將其輸出與正確答案進行比較,並計算出誤差範圍。通過一種叫做反向傳播的過程,它衡量每個連接對誤差的貢獻,並像米開朗基羅的鑿刻一樣,調整其權重值。如果某個連接導致了錯誤預測,它的影響力就會減小。如果它有助於得出正確答案,它的影響力則會增強。

當所有數據通過網絡(每個數據點完成一次前向傳播和反向傳播步驟)後,就標誌著一個“週期”(epoch)的結束。這個過程會重複多次,每次傳遞都會精煉網絡的理解。在早期的週期中,權重變化劇烈,網絡進行大範圍的調整——就像最初的大刀闊斧的鑿刻一樣。在後期的週期中,變化變得更加微妙,細緻地調整連接以達到最佳性能——就像最後的精細修飾揭示了《大衛》的細節。

最終,在成千上萬次甚至百萬次的迭代後,訓練好的模型誕生了。就像《大衛》以完成的姿態自豪地佇立一樣,神經網絡從隨機噪聲轉變為一個能夠識別模式、做出預測、生成騎著滑板車的貓圖像,或讓計算機理解並用人類語言做出迴應的系統。

為什麼是 GPU?

米開朗基羅獨自雕刻《大衛》,每次只能進行一次鑿刻,每次都需要精確計算角度、力度和位置。這種精細的精準度是他花費三年時間完成這件傑作的原因。但想象一下,如果有成千上萬的同樣技藝高超的雕刻家在《大衛》上協調工作——一組團隊雕刻頭髮的捲曲,另一組雕刻軀幹的肌肉,數百人同時雕刻面部、手部和腳部的精細細節。如此並行的努力將把三年的工作壓縮為幾天。

類似地,儘管CPU強大且精確,但它們每次只能執行一個計算。訓練一個神經網絡並不需要單一複雜的計算,而是需要數億次簡單的計算——主要是在每個節點上的乘法和加法。例如,之前提到的神經網絡樣本,只有18個節點和大約100個連接(參數),可以在CPU上在合理的時間內完成訓練。

然而,今天最強大的模型,如OpenAI的GPT-4,擁有1.8萬億個參數!即使是較小的現代模型也至少包含十億個參數。逐一進行計算訓練這些模型將需要數百年。這就是GPU的優勢所在:它們能夠同時執行大量簡單的數學計算,理想地處理多個神經網絡節點的並行計算。

現代GPU的性能令人震驚。例如,NVIDIA最新的B200 GPU包含超過2000億個晶體管,並支持每秒進行2250萬億次並行計算(2,250 TFLOPS)。單個B200 GPU能夠處理最多7400億個參數的模型。這些機器代表了現代工程的壯舉,這也解釋了為什麼NVIDIA以每個40,000美元的價格銷售每臺單位,並在五年內其股價暴漲了2500%以上。

黃仁勳展示NVIDIA B200

即便是這些強大的機器,也無法單獨完成AI模型的訓練。回想一下,在訓練過程中,每個數據實例必須單獨通過模型進行前向和後向循環。現代的大型語言模型(LLM)是在涵蓋整個互聯網的數據集上進行訓練的。例如,GPT-4處理了大約12萬億個令牌(約9萬億個單詞),而下一代模型預計將處理多達100萬億個令牌。僅使用單個GPU處理如此龐大的數據量,仍然需要幾個世紀的時間。

解決方案在於增加另一層並行性——創建GPU集群,將訓練任務分配給多個GPU,使它們作為一個統一的系統進行工作。模型訓練的工作負載可以通過三種方式進行並行化:

數據並行性:多個GPU各自維護一個完整的神經網絡模型副本,同時處理不同部分的訓練數據。每個GPU獨立處理分配的數據批次,然後定期與其他GPU同步。在這個同步期間,GPU之間相互通信,以找出它們權重的集體平均值,並更新各自的權重,使它們保持一致。因此,GPU會繼續在各自的數據批次上獨立訓練,直到再次進行同步。

隨著模型的增大,單一副本可能變得太大,無法放入一個GPU。例如,最新的B200 GPU最多隻能容納7400億個參數,而GPT-4則是一個擁有1.8萬億參數的模型。在這種情況下,單個GPU之間的數據並行性是不可行的。

張量並行性:這種方法通過將每個模型層的工作和權重分配到多個GPU來解決內存限制。GPU在每次前向傳播和反向傳播步驟中與整個集群交換中間計算結果。這些GPU通常被分組在八個單元的服務器中,通過NVLink連接——NVIDIA的高速直接GPU對GPU互連。這種設置要求GPU之間具有高帶寬(高達400 Gb/s)和低延遲的連接。張量集群有效地作為一個單一的大型GPU運行。

流水線並行性:這種方法將模型拆分到多個GPU,每個GPU處理特定的層。數據按順序流經這些GPU,就像接力賽中的每個跑者(GPU)管理自己的部分,然後傳遞接力棒。流水線並行性特別適合將不同的8-GPU服務器連接在數據中心內,使用高速InfiniBand網絡進行服務器間通信。雖然它的通信需求超過了數據並行性,但仍低於張量並行性中GPU之間頻繁交換數據的需求。

現代集群的規模令人矚目。GPT-4,擁有1.8萬億個參數和120層,訓練時需要25,000個A100 GPU。這個過程花費了三個月,費用超過6000萬美元。A100已經是兩代前的產品;如果使用今天的B200 GPU,僅需約8,000個單位和20天的訓練時間。這再次展示了AI發展的速度。

但GPT-4級別的模型如今已經顯得過時。下一代先進模型的訓練正在進行,數據中心裡託管著由10萬個B100或H100 GPU組成的集群(後者是前一代產品)。這些集群僅GPU資本開支就超過40億美元,它們是人類最強大的超級計算機,提供的計算能力至少是政府擁有的超級計算機的四倍。

除了確保原始計算能力,ASI(人工超級智能)追求者在嘗試設置這些集群時還會遇到另一個問題:電力。每個GPU消耗700瓦的電力。將10萬個GPU結合在一起,整個集群(包括支持硬件)將消耗超過150兆瓦的電力。為便於理解,這個消耗相當於一個30萬人口的城市——類似於新奧爾良或蘇黎世。

瘋狂的程度不僅僅如此。大多數ASI追求者相信,LLM(大型語言模型)擴展法則——即隨著模型大小、數據集大小和訓練計算量的增加,模型性能將可預測地改善——將繼續成立。更強大的模型訓練計劃已經在進行中。到2025年,每個訓練集群的成本預計將超過100億美元;到2027年,超過1000億美元。隨著這些數字接近美國政府在阿波羅計劃中的投資,顯而易見,為什麼實現ASI已經成為我們這個時代的定義性競賽。

從 GPT-5 開始的模型的指標是估計值

隨著集群規模的擴大,電力消耗成比例增加,明年的訓練將需要超過1GW的電力。再過一年,將需要10GW或更多。隨著這一擴展沒有減緩的跡象,預計到2030年,數據中心將消耗全球約4.5%的電力。現有的電力網絡已經難以滿足當前模型的需求,無法為未來的集群提供足夠的能源。這提出了一個關鍵問題:這些電力將從哪裡來?大科技公司正在採取雙管齊下的策略。

從長遠來看,唯一可行的解決方案是ASI追求者自給自足,生產自己的電力。考慮到它們的氣候承諾,這些電力必須來自可再生能源。核能作為主要解決方案脫穎而出。亞馬遜最近以6.5億美元購買了一個由核電廠提供電力的數據中心園區。微軟已經聘請了一位核技術負責人,並正在重啟歷史悠久的三英里島核電廠。谷歌已從加利福尼亞的Kairos Power收購了多個小型核反應堆。OpenAI的Sam Altman支持了HelionExowattOklo等能源初創公司。

微軟正在重啟三英里島核電廠(圖片來源

儘管核能的種子正在現在播種,但其果實(或電力)需要幾年才能成熟。那麼,如何解決當代模型的能源需求呢?臨時解決方案是通過多個數據中心進行分佈式訓練。微軟和谷歌等公司正將他們的訓練集群分佈在多個地點,而不是將巨大的電力需求集中在一個地方。

當然,挑戰在於如何讓這些分佈式系統高效協作。即使是光速,數據從美國東海岸到西海岸的往返大約需要43毫秒——在計算機術語中,這是一個漫長的時間。此外,如果某個芯片滯後,例如滯後10%,那麼整個訓練過程的速度都會以同樣的幅度減慢。

解決方案是通過高速光纖網絡將不同地點的數據中心連接起來,並應用前面提到的多種並行化技術來同步它們的操作。張量並行性應用於每臺服務器內的GPU,使它們能夠作為一個單獨的單元工作。管道並行性則應用於同一數據中心內的服務器鏈接,因其網絡需求較低。最後,位於不同地點的數據中心(被稱為“島嶼”)通過數據並行性定期同步信息。

之前我們提到,數據並行性對於單個GPU來說效果不好,因為它們無法獨立容納大規模模型。然而,當我們並行化的是每個包含數千個GPU的島嶼,而非單個單元時,這一動態發生了變化。訓練數據被分佈到每個島嶼,並通過相對較慢的光纖連接(與NVLink和Infiniband相比)定期同步這些島嶼。

數據中心

讓我們將重點從訓練和GPU轉移到數據中心本身。

二十年前,亞馬遜推出了Amazon Web Services(AWS)——這是歷史上最具變革性的業務之一,並創造了一個名為雲計算的全新行業。如今,雲計算行業的領導者(亞馬遜、微軟、谷歌和甲骨文)享有穩固的市場主導地位,年收入接近3000億美元,利潤率在30%到40%之間。現在,AI的興起為這個長期保持寡頭壟斷市場帶來了新的機會。

GPU密集型的AI數據中心與傳統數據中心在物理需求、技術複雜性和經濟性方面有著顯著的差異。

我們之前討論過GPU的高能耗,這使得AI數據中心的功率密度大大增加,因此也產生更多的熱量。傳統的數據中心使用巨大的風扇(空氣冷卻)來散熱,但這種方法對AI設施來說既不充分,也不具備經濟可行性。相反,AI數據中心正在採用液冷系統,其中水塊直接連接到GPU和其他高溫組件,以更高效、安靜地散熱(B200 GPU自帶這種架構)。支持液冷系統需要增加大型冷卻塔、集中式水系統設施以及用於輸送水到各GPU的管道,這是對數據中心基礎設施的根本性改造。

除了更高的能耗外,AI數據中心還有獨特的負載需求。傳統數據中心保持可預測的電力消耗,而AI工作負載的功率使用模式波動性更大。這種波動性發生在GPU週期性地在100%負載和幾乎停止之間切換,這發生在訓練達到檢查點時,此時權重要麼存儲到內存中,要麼像我們之前看到的那樣,與其他島嶼同步。AI數據中心需要專門的電力基礎設施來應對這些負載波動。

構建GPU集群比構建常規計算雲更為複雜。GPU需要非常快速地相互通信。為此,它們必須非常緊密地排列在一起。一個典型的AI設施需要超過200,000條特殊電纜,稱為InfiniBand連接。這些電纜讓GPU之間可以通信。如果其中一條電纜出現故障,整個系統都會停擺。直到該電纜修復,訓練過程才會繼續進行。

這些基礎設施需求使得傳統數據中心幾乎無法通過簡單的升級改造來適配高性能GPU並使其支持AI。這種升級將需要幾乎完全的結構重建。因此,各公司正在從頭開始建設專為AI設計的新數據中心,不同的組織在不同規模上進行這一建設。

在這一領域,領先的科技公司正在爭相建設自己的AI數據中心。Meta正在大力投資專門為其自身AI開發而建的設施,將其視為直接的資本投資,因為它不提供雲服務。微軟正在建設同樣龐大的數據中心,以支持其自己的AI項目,併為OpenAI等重要客戶提供服務。甲骨文也積極進入這一領域,並將OpenAI作為重要客戶。亞馬遜繼續擴大其基礎設施,特別是為了支持像Anthropic這樣的新興AI公司。埃隆·馬斯克的xAI則選擇建立自己的100,000個GPU集群,避免依賴其他公司。

xAI的100,000 H100 GPU數據中心內部(圖片來源

除了現有的大公司外,”新雲”也在崛起——這些是專門為AI工作負載提供GPU計算的雲服務提供商。這些新雲根據規模分為兩類。

大型新雲提供商,包括CoreWeaveCrusoeLLama Labs,運營著超過2,000個GPU的集群。它們與傳統雲服務提供商的區別有兩個方面:提供定製化的基礎設施解決方案,而非標準化的套餐,並且要求長期客戶承諾,而不是按使用付費的安排。

它們的商業模式利用這些長期合同和客戶的信用狀況來確保基礎設施融資。收入來自為專門服務收取的高額費用,利潤則來自低融資成本與客戶支付之間的差額。

這種安排通常是如何運作的:一個新雲提供商與一家資金充裕的AI初創公司簽訂三年合同,提供10,000個H100 GPU,月費為4,000萬美元。通過這個每月收入1.44億美元的保證收入流,提供商獲得了有利的銀行融資(6%的利率),以購買並安裝價值7億美元的基礎設施。每月的收入4,000萬美元覆蓋了1,000萬美元的運營成本和2,000萬美元的貸款償還,產生了1,000萬美元的月度利潤,而初創公司則獲得定製的專用計算能力。

這種模式要求極其謹慎地選擇客戶。提供商通常尋找具有大額現金儲備或強大風險投資支持的公司——通常是估值5億美元或以上的公司。

小型新雲提供商提供2,000個或更少GPU的集群,面向AI市場的不同細分群體——小型和中型初創公司。這些公司通常訓練較小的模型(最多70億參數)或對開源模型進行微調。(微調是將基礎模型適應特定用例的過程。)這兩種工作負載需要適度但專用的計算能力,且時長較短。

這些提供商提供按需計算,按小時收費,提供固定時長的不間斷集群訪問。雖然這比長期合同更貴,但它為初創公司提供了靈活性,讓它們可以在不需要簽訂數百萬美元協議的情況下進行實驗。

最後,除了雲巨頭和新雲提供商外,我們還有AI基礎設施空間的中介平臺和聚合商。這些中介平臺不擁有GPU基礎設施,而是將計算資源的所有者與需要這些資源的客戶連接起來。

平臺提供商如HydraHostFluidstack充當GPU計算的Shopify。就像Shopify使商家能夠啟動在線商店而不必構建電商基礎設施一樣,這些平臺允許數據中心運營商和GPU擁有者提供計算服務,而不必開發自己的客戶接口。它們提供運行GPU計算業務的完整技術包,包括基礎設施管理工具、客戶配置系統和計費解決方案。

市場聚合商如Vast.ai則充當GPU世界的Amazon。它們創建了一個市場,將來自不同提供商的多樣化計算資源結合起來——從消費者級的RTX顯卡到專業級的H100 GPU。GPU所有者列出他們的資源,並附上詳細的性能指標和可靠性評分,而客戶則通過自助平臺購買計算時間。

推理

到目前為止,我們的討論主要集中在訓練(或微調)模型。然而,一旦模型訓練完成,就必須將其部署以服務最終用戶,這個過程被稱為推理。每次你與ChatGPT對話時,實際上是在使用運行推理工作負載的GPU,這些工作負載接收你的輸入並生成模型的迴應。讓我們再回到討論大理石雕像的比喻。

這是大衛像——不是米開朗基羅的原作,而是1857年為倫敦維多利亞和阿爾伯特博物館委託製作的石膏鑄像。米開朗基羅在佛羅倫薩花費了三年時間,仔細雕刻大理石以創作原作,而這座石膏鑄像則是通過直接模製獲得的——完美地再現了米開朗基羅雕刻的每一個曲線、角度和細節。創作性的工作只進行了一次,之後就變成了忠實複製這些特徵。今天,大衛像的複製品無處不在,從博物館的大廳到拉斯維加斯的賭場庭院都有它的身影。

這正是AI推理的工作方式。訓練一個大型語言模型就像米開朗基羅的原作雕刻過程——計算密集、耗時且資源需求大,因為模型通過數百萬次細微調整逐漸學習語言的正確“形狀”。但使用訓練好的模型——推理——更像是在製作複製品。當你與ChatGPT對話時,你並不是在從零開始教它語言,而是在使用一個已經完美調整的模型副本(就像大衛的精準曲線和角度一樣)。

推理工作負載與訓練有根本的不同。訓練需要大規模、密集的最新GPU集群(如H100)來處理密集的計算,而推理則可以在單個GPU服務器上使用較老的硬件(如A100,甚至是消費者級的顯卡)運行,從而顯著降低成本。儘管如此,推理工作負載仍然有其獨特的需求:

  • 廣泛的地理覆蓋:模型需要在多個數據中心部署,以確保新加坡的用戶和舊金山的用戶獲得同樣快速的響應。
  • 高可用性:與訓練可以暫停和恢復不同,推理需要24/7全天候可用,因為用戶期望隨時獲得即時響應。
  • 冗餘:需要多個服務器隨時準備處理請求,以防某些服務器出現故障或過載。

這些特點使得推理工作負載非常適合使用現貨定價模型。在現貨定價下,GPU資源通常以比按需定價低30-50%的顯著折扣提供——但服務可能會在高優先級客戶需要資源時暫停。這個模型非常適合推理,因為冗餘部署可以在中斷時迅速將工作負載切換到可用的GPU上。

在GPU和AI雲計算的背景下,我們現在可以開始探討加密貨幣如何融入其中了。讓我們(終於)開始吧。

加密技術的定位

項目和報告經常引用彼得·蒂爾(Peter Thiel)的觀點,即“人工智能是集中的,加密技術是去中心化的”來討論加密技術在AI訓練中的作用。儘管蒂爾的說法無疑是正確的,但我們剛剛看到大量證據表明大科技公司在訓練強大AI方面擁有明顯的優勢——這一觀點常被錯誤引用,以暗示加密技術和去中心化計算是對抗大科技公司影響力的主要解決方案。

這種說法類似於之前關於加密技術將徹底改變社交媒體、遊戲以及無數其他行業的誇大言論。這些說法不僅無益,接下來我將說明,它們在短期內至少是不現實的。

相反,我將採取一種更務實的方式。我假設一個尋求計算資源的AI初創公司並不關心去中心化的原則或對大科技公司的意識形態對抗。他們面對的問題是——如何以最低的成本獲得可靠的GPU計算資源。如果一個加密項目能比非加密方案提供更好的解決方案,他們就會選擇使用它。

為此,我們首先需要了解加密項目的競爭對手是誰。之前我們已經討論過不同類別的AI雲提供商——大科技公司和超大規模供應商、大型新雲、小型新雲、平臺提供商和市場平臺。

去中心化計算(如所有DePIN項目)背後的基本論點是,當前的計算市場效率低下。GPU需求異常高漲,而供應則分散在全球各地的數據中心和個人家中且未被充分利用。該領域的大多數項目通過整合這些分散的供應來減少低效問題,直接與市場平臺競爭。

在此基礎上,讓我們看看這些項目(以及計算市場平臺總體)如何在不同的AI工作負載中提供幫助——包括訓練、微調和推理。

訓練

首先,需要明確的是,ASI(人工超級智能)不會在一個去中心化的GPU全球網絡上進行訓練,至少在當前的AI發展路徑上不會如此。以下是原因。

之前我們已經討論過基礎模型集群的規模有多龐大。僅僅是開始具備競爭力,你就需要世界上10萬個最強大的GPU。而且,這一數字每年都在增長。預計到2026年,一次訓練的成本將超過1000億美元,可能需要一百萬個以上的GPU。

只有那些擁有大型新雲支持和直接與Nvidia合作關係的大科技公司才能組建這樣規模的集群。請記住,這是爭奪ASI的競賽,所有參與者都高度動機充足且資金充裕。如果有額外的大量GPU供應(實際上並沒有),這些公司也會是首先搶購的對象。

即使某個加密項目奇蹟般地聚集了所需的計算資源,去中心化ASI開發仍面臨兩個根本性障礙:

首先,GPU仍需連接成大型集群才能有效運作。即使這些集群分佈在城市中的不同區域,它們也必須通過專用光纖線路連接。在去中心化環境下,這兩者都難以實現。除了獲取GPU外,建立AI專用數據中心需要周密的規劃——通常需耗時一到兩年。(xAI在短短122天內完成了,但埃隆·馬斯克短期內似乎不會推出任何代幣。)

其次,僅僅創建一個AI數據中心並不足以誕生超級智能AI。正如Anthropic創始人Dario Amodei最近所解釋的,AI的擴展類似於化學反應。化學反應需要多種試劑按精確比例才能進行,AI擴展的成功同樣依賴於三個關鍵要素的同步增長:更大的網絡、更長的訓練時間和更大的數據集。如果只擴大其中一個因素而忽略其他部分,整個過程就會停滯不前。

即使我們設法同時獲得計算資源並讓這些集群協同工作,為了讓訓練的模型足夠優秀,我們仍然需要大量高質量的數據。沒有大科技公司的專有數據源、簽訂數百萬美元合同來獲取網絡論壇和媒體資源的資金,或生成合成數據的現有模型,要獲得足夠的訓練數據幾乎是不可能的。

最近有一些關於擴展法則可能進入平臺期的猜測,認為大型語言模型(LLM)性能可能觸頂。有些人將此視為去中心化AI開發的機會。然而,這忽略了一個關鍵因素——人才集中。當前的大科技公司和AI實驗室聚集了全球頂尖的研究人員。任何通往AGI的突破性替代路徑都可能來自這些中心。在競爭激烈的環境下,這類發現將被嚴密保密。

基於上述論點,我可以99.99%確定,ASI的訓練——甚至是世界上最強大的模型——不會依賴去中心化的計算項目。那麼,加密技術究竟能在哪些模型訓練中發揮作用?

要在地理位置不同的GPU集群之間進行模型訓練,我們需要在它們之間實現數據並行。(回想一下,數據並行是如何讓不同的GPU島嶼分別處理訓練數據塊,並與彼此同步的。)模型規模越大,需要在這些島嶼之間交換的數據量就越大。對於擁有超過一萬億參數的前沿模型,其所需帶寬足以需要專用光纖連接。

然而,對於較小的模型,帶寬需求會按比例降低。最近在低通信訓練算法方面的突破,尤其是延遲同步技術,為以去中心化方式訓練小型到中型模型創造了希望。兩個團隊在這些實驗性研究中處於領先地位。

Nous Research是一家AI加速器公司,也是開源AI開發的領導者。他們因Hermes系列語言模型和創新項目World Sim而知名。今年早些時候,他們運營了一個用於LLM排名的BitTensor子網,並通過發佈DisTrO(基於互聯網的分佈式訓練)項目,成功在去中心化環境中訓練了一個1.2B參數的Llama-2模型,實現了857倍的GPU間帶寬需求減少。

Nous Research 的 DisTrO 報告

Prime Intellect 是一家專注於大規模去中心化 AI 基礎設施開發的初創公司,致力於聚合全球計算資源,通過分佈式系統實現最先進模型的協作訓練。他們的 OpenDiLoCo 框架(實現了 DeepMind 的分佈式低通信方法)成功在跨越兩個大洲和三個國家的環境下訓練了一個十億參數的模型,同時保持了 90-95% 的計算資源利用率。

那麼,這些去中心化的訓練過程是如何運作的?

傳統的數據並行方法要求 GPU 在每一步訓練後共享並平均其權重,這在互聯網連接環境下幾乎不可能實現。而這些項目允許每個 GPU“島嶼”獨立訓練數百步後再進行同步。可以將其想象為不同的研究團隊共同參與同一個項目:他們不是不斷互相彙報進度,而是在取得重大進展後才分享成果。

DisTrO 和 OpenDiLoCo 每 500 步才同步一次,並採用雙優化器方法:

  • “內層”優化器處理每個 GPU 上的本地更新,就像一個團隊在做局部發現
  • “外層”優化器管理 GPU 之間的週期性同步,像是一個協調人整合所有發現

在同步時,他們並非分享所有權重,而是共享“偽梯度”——即當前權重與上次同步權重之間的差異。這種方法非常高效,就像只分享文檔的更改部分,而非每次都發送整份文檔。

Prime Intellect 的 INTELLECT-1 是 OpenDiLoCo 的實際應用,進一步推動了這一方法,正在訓練一個 100 億參數的模型——這是迄今為止最大規模的去中心化訓練嘗試。他們引入了關鍵優化措施,例如:

  • 壓縮需要共享的數據,大幅提升通信效率
  • 內置備份系統,即使部分計算機脫機也能繼續訓練
  • 將同步過程的時間縮短到不到一分鐘

INTELLECT-1 由分佈在全球的 20 多個 GPU 集群共同訓練,近期已完成預訓練,並即將作為一個完全開源的模型發佈。

INTELLECT-1 訓練儀表板

Macrocosmos 這樣的團隊正在使用類似的算法在 Bittensor 生態系統中訓練模型

如果這些去中心化訓練算法能夠持續改進,它們可能在下一代 GPU 的支持下,具備訓練高達 1000 億參數模型的能力。即使是這種規模的模型,也可以在許多用例中發揮重要作用:

  1. 用於研究和實驗的新型架構,不需要前沿級計算資源
  2. 優化性能和速度的小型通用模型,而非追求純粹的智能
  3. 針對特定領域的專用模型

微調

微調是指在一個預訓練的基礎模型(通常是 Meta、Mistral 或阿里巴巴發佈的開源模型)基礎上,使用特定數據集進一步訓練,以適應特定任務或領域。這與從頭開始訓練相比所需的計算量要少得多,因為模型已經學習了通用的語言模式,只需調整權重以適應新的領域。

微調的計算需求隨著模型規模增長而變化。假設使用 H100 進行訓練:

  • 小型模型(1-7B 參數):單個 GPU,12 小時內完成
  • 中型模型(7-13B 參數):2-4 個 GPU 集群,36 小時內完成
  • 大型模型(>30B 參數):最多 8 個 GPU 集群,4 天內完成

根據這些規格,微調不需要之前討論的複雜分佈式訓練算法。按需模型,即開發者短期租用 GPU 集群進行集中訓練,可以很好地支持微調工作。具備充足 GPU 資源的去中心化計算市場在處理此類工作負載方面處於理想位置。

推理

推理是去中心化計算市場實現產品市場契合最清晰的路徑。諷刺的是,在去中心化訓練的討論中,推理往往是最少被提及的工作流程。這主要有兩個原因:一是推理缺乏“十萬 GPU 神級模型”訓練的吸引力,二是由於當前 AI 革命的階段性特點。

截至目前,大部分計算資源確實都用於訓練。通往 ASI 的競賽導致了在訓練基礎設施上的大量前期投資。然而,隨著 AI 應用從研究轉向生產,這種平衡不可避免地會發生變化。為了使 AI 相關的商業模式可持續發展,從推理中產生的收入必須超過訓練和推理的總成本。儘管訓練 GPT-4 費用巨大,但那只是一次性成本。持續的計算開銷——以及 OpenAI 通往盈利的路徑——則依賴於向付費用戶提供數十億次推理請求服務。

計算市場,無論是去中心化的還是傳統的,通過匯聚全球各種 GPU 型號(包括新舊 GPU),在推理工作負載中處於獨特的有利位置。

計算市場在推理任務中天然具有優勢:廣泛的地理分佈、持續的正常運行時間、系統冗餘以及跨 GPU 代際的兼容性,這些特點與推理需求完美契合。

但為什麼要加密呢?

我們已經討論了去中心化計算可以和不能幫助的不同工作流程。現在,我們需要回答另一個重要問題:為什麼開發者會選擇從去中心化的提供商獲取計算資源,而不是從中心化的提供商?去中心化解決方案提供了哪些具有吸引力的獨特優勢?

價格與範圍

穩定幣通過提供比傳統跨境支付更優越的替代方案,實現了產品市場契合。其中一個重要因素是穩定幣的成本更低!同樣地,影響 AI 開發者選擇雲提供商的最大因素是成本。去中心化計算提供商要想具備競爭力,首先必須提供更具優勢的定價。

計算市場,如同所有市場,是一個依賴網絡效應的業務。平臺上的 GPU 供應越多,客戶的流動性和可用性就越高,從而吸引更多需求。隨著需求的增長,這進一步激勵更多 GPU 擁有者加入網絡,形成一個良性循環。供應的增加還通過更優匹配和減少閒置時間來實現更具競爭力的定價。當客戶能夠以有吸引力的價格持續獲得所需的計算資源時,他們更可能在平臺上建立長期的技術依賴,從而進一步增強網絡效應。

這種動態在推理工作負載中尤為強大,地理分佈廣泛的供應還能通過降低端用戶的延遲來提升產品體驗。第一個在規模上實現這種流動性飛輪效應的市場將獲得顯著的競爭優勢,因為一旦供應商和客戶與平臺的工具和工作流集成,就會面臨轉換成本。

GPU 市場的網絡效應飛輪

在這種贏家通吃的市場中,引導網絡啟動並達到逃逸速度是最關鍵的階段。在這方面,加密為去中心化計算項目提供了中心化競爭對手所不具備的強大工具:代幣激勵。

其機制可以是簡單但卻極具影響力的。協議首先推出一個代幣,包含通脹獎勵計劃,並可能通過空投將初始分配發放給早期貢獻者。這些代幣發行將成為推動市場供需雙方的主要工具。

對於 GPU 提供商,獎勵結構需要精心設計,以塑造供應端行為。提供商根據貢獻的計算資源和利用率獲得代幣,但系統應超越簡單的線性獎勵。協議可以實施動態獎勵倍增機制,以解決地理或硬件類型的不平衡——類似於 Uber 使用高峰定價來激勵高需求地區的司機。

例如,提供在供應不足地區的計算資源可能獲得 1.5 倍獎勵,而提供暫時稀缺的 GPU 類型可能獲得 2 倍獎勵。基於持續的利用率對獎勵系統進行分級,可以鼓勵提供商保持穩定的可用性,而不是機會性地在不同平臺之間切換。

在需求端,客戶可以通過獲得代幣獎勵來有效地補貼使用成本。協議可以提供更高的獎勵來鼓勵更長期的計算承諾,從而激勵用戶在平臺上建立更深的技術依賴。這些獎勵還可以進一步與平臺的戰略優先事項對齊,例如獲取特定區域的需求。

計算的基礎費率可以保持在市場價格或略低於市場價格,協議可以使用 zkTLS 預言機來持續監控和匹配競爭對手的定價。代幣獎勵則作為這些競爭性基礎費率之上的額外激勵層。這種雙重定價模式允許平臺在保持價格競爭力的同時,通過代幣激勵來引導特定行為,從而加強網絡效應。

通過分發代幣激勵,提供商和客戶都將開始在網絡中積累權益。雖然其中一些人可能會出售這些權益,但另一些人會持有,從而成為平臺的利益相關者和推廣者。這些參與者將對網絡的成功充滿興趣,不僅限於直接使用或提供計算資源,而是進一步推動網絡的增長和普及。

隨著時間的推移,當網絡達到逃逸速度並建立起強大的網絡效應後,代幣激勵可以逐步減少。作為最大市場的自然優勢——更好的匹配、更高的利用率、更廣泛的地理覆蓋——將成為自我持續的增長動力。

代幣激勵如何加速 GPU 市場的網絡效應飛輪

審查阻力

儘管價格和資源廣度是重要的差異化因素,但去中心化計算網絡還能應對一個日益嚴重的問題:來自中心化服務提供商的運營限制。傳統雲服務商已經展示了其基於內容政策和外部壓力暫停或終止服務的意願。這些先例引發了人們對類似政策可能延伸至 AI 模型開發和部署的合理擔憂。

隨著 AI 模型日趨先進並應用於越來越多樣化的場景,雲提供商可能會像現有內容審核機制一樣,對模型訓練和服務實施限制。這種情況可能不僅影響 NSFW 內容和有爭議的話題,還可能波及醫療影像、科學研究或創意藝術等領域的合法用途,而這些用途可能因過於謹慎的自動過濾系統而被錯誤阻止。

去中心化網絡通過讓市場參與者自行決定基礎設施的使用,為創新提供了一個更自由、更不受限制的環境。

然而,無權限架構的另一面是隱私保護的挑戰。當計算資源分佈於多個提供商網絡,而非集中在單一可信數據中心時,開發者需要更加註重數據安全。儘管加密技術和可信執行環境(TEE)能夠提供幫助,但開發者必須根據具體需求在審查阻力與隱私保護之間權衡。

信任與合約執行

由於對 AI 計算資源的需求極高,GPU 提供商可能利用其市場地位,從成功客戶中榨取最大利潤。去年,知名獨立開發者 Pieter Levels 分享了一些實例,包括他和其他開發者在公開了 AI 應用的收入後,服務商突然將價格提高了 600% 以上。

去中心化系統能夠提供針對這一問題的解決方案——基於信任最小化的合約執行。當協議被編碼在鏈上而非埋藏於服務條款中時,合約將變得透明且不可篡改。提供商無法在合同執行期間隨意漲價或改變條款,除非這些變更經過協議明確同意。

除了價格問題,去中心化網絡還能利用可信執行環境(TEEs)來提供可驗證的計算資源。這確保了開發者實際獲得其所支付的 GPU 資源,無論是硬件規格還是專用訪問。例如,當開發者支付了用於模型訓練的 8 個 H100 GPU 的專用訪問費用時,密碼學證明能夠驗證其工作負載確實運行在 80GB 顯存的 H100 上,而不是被暗中降級到低端 GPU 或與其他用戶共享資源。

無需許可

去中心化計算網絡可以為開發者提供真正無需許可的替代方案。與傳統提供商需要進行廣泛的 KYC 流程和信用檢查不同,任何人都可以加入這些網絡並開始消耗或提供計算資源。這大大降低了進入門檻,尤其對於新興市場的開發者或從事實驗性項目的開發者來說尤為重要。

當我們考慮到 AI 智能體的未來時,這種無需許可的特性變得更加重要。AI 智能體剛剛開始找到自己的立足點,垂直整合的智能體預計將超越 SaaS 行業的規模。像 Truth TerminalZerebro 這樣的項目正在展示智能體獲得自主性的初步跡象,學習如何使用社交媒體和圖像生成器等外部工具。

隨著這些自治系統變得越來越複雜,它們可能需要動態地為自己配置計算資源。去中心化網絡中,合約可以通過代碼而非人工中介信任地執行,這正是未來智能體所需的自然基礎設施。智能體可以自主談判合約、監控性能並根據需求調整計算使用——這一切都無需人工干預或批准。

市場格局

去中心化計算網絡的概念並不新穎——在當前的 AI 熱潮之前,許多項目就已經在努力使稀缺的計算資源更加普及。Render Network 自 2017 年起就開始運營,聚合 GPU 資源用於計算機圖形渲染。Akash 於 2020 年推出,旨在創建一個開放的通用計算市場。這兩個項目在各自的領域取得了適度的成功,但現在都集中於 AI 工作負載。

同樣,像 FilecoinArweave 這樣的去中心化存儲網絡也在向計算領域擴展。他們認識到,隨著 AI 成為存儲和計算的主要消費方,提供集成解決方案是有意義的。

正如傳統數據中心在與專門的 AI 設施競爭時面臨困難,這些成熟的網絡也在與原生 AI 解決方案的競爭中遇到了上坡路。它們缺乏執行 AI 工作負載所需複雜編排的基因。相反,它們正在通過成為其他 AI 專用網絡的計算提供商來找到自己的位置。例如,Render 和 Akash 現在都在 io.net 的市場上提供其 GPU。

這些新的 AI 原生市場是誰?io.net 是聚合企業級 GPU 供應的早期領導者之一,其網絡上有超過 30 萬個經過驗證的 GPU。它們聲稱提供比傳統集中式提供商節省 90% 的成本,並且日收益超過 25,000 美元(年化 900 萬美元)。類似地,Aethir 聚合了超過 40,000 個 GPU(包括 4,000 多個 H100),以支持 AI 和雲計算應用。

之前我們討論過 Prime Intellect 正在為大規模去中心化訓練創建框架。除了這些努力,它們還提供一個 GPU 市場,用戶可以按需租用 H100。Gensyn 是另一個在去中心化訓練上押注的項目,採用類似的訓練框架加上 GPU 市場的方式。

雖然這些都是支持訓練和推理的工作負載無關市場(支持兩者),但一些項目專注於僅用於推理——這是我們最感興趣的去中心化計算工作負載。其中最重要的是 Exo Labs,它使用戶能夠在日常設備上運行前沿級 LLM。它們開發了一個開源平臺,允許將 AI 推理任務分配到多個設備上,如 iPhone、Android 和 Mac。最近,他們展示瞭如何在四臺 M4 Pro Mac Mini 上分佈式運行一個 70B 模型(可擴展到 400B)。

關鍵基礎設施

當中本聰在 2008 年推出比特幣時,它的好處——數字黃金、有限供應和抗審查的貨幣——只是理論上的。儘管傳統金融體系有其缺陷,但它仍在運作。中央銀行尚未展開前所未有的貨幣印刷。國際制裁尚未被用作對整個經濟體的武器。對替代方案的需求顯得更像是學術問題,而非緊迫問題。

經歷了十年的量化寬鬆,直到 COVID 期間的貨幣擴張,比特幣的理論好處才得以轉化為切實的價值。如今,隨著通貨膨脹侵蝕儲蓄、地緣政治緊張局勢威脅美元主導地位,比特幣作為“數字黃金”的角色已從密碼朋克的夢想發展成被機構和國家接受的資產。

穩定幣也經歷了類似的過程。隨著以太坊等通用區塊鏈的出現,穩定幣迅速成為最具前景的用例之一。然而,技術的逐步改進以及阿根廷和土耳其等國的經濟遭受通貨膨脹的摧殘,才使得穩定幣從一種小眾的加密創新,發展為每年流轉數萬億美元的關鍵金融基礎設施。

加密技術本質上是一種防禦性技術——在順境中看似不必要的創新,在危機時刻變得至關重要。這些解決方案的需求只有在現有系統崩潰或暴露其真實面目時才顯現出來。

今天,我們正生活在 AI 的黃金時代。風險投資資金流動自由,公司爭相提供最低價格,限制措施(如果有的話)也是罕見的。在這種環境下,去中心化的替代方案似乎顯得不那麼必要。為什麼要處理代幣經濟學和證明系統的複雜性,當傳統提供商完全足夠呢?

但從過去的主要技術浪潮來看,這種恩惠是暫時的。我們距離 AI 革命才剛剛開始兩年。當技術逐漸成熟,AI 競賽的贏家浮現時,它們的真正實力將顯現出來。今天提供慷慨訪問的公司,最終將通過定價、政策、權限等方式行使控制。

這不僅僅是另一輪技術週期的問題。AI 正在成為文明的新基底——我們處理信息、創造藝術、做決策並最終進化的視角。計算不僅僅是一種資源,它是智能本身的貨幣。控制其流動的人,將塑造人類的認知邊界。

去中心化計算不僅僅是為了提供更便宜的 GPU 或更多靈活的部署選項(雖然必須提供這兩者以獲得成功)。它是為了確保對人工智能——人類最具變革性的技術——的訪問保持不可審查和主權。它是我們對抗未來的盾牌,在那個未來,少數公司不僅決定誰能使用 AI,還決定他們如何使用 AI。

我們今天構建這些系統,不是因為它們現在就必要,而是因為它們明天將變得至關重要。當 AI 成為社會的基礎設施之一時,去中心化計算將不僅僅是一個替代方案——它將像比特幣和穩定幣對抗金融控制一樣,成為抵抗數字霸權的關鍵。

人工超智能的競賽可能超出了去中心化系統的能力範圍。但確保這份智能的果實對所有人保持可及?這是值得一搏的競賽。

免責聲明:

  1. 本文轉載自【Decentralized.co】,轉發原文標題:《去中心化計算》。所有版權歸原作者所有【Shlok Khemani】。若對本次轉載有異議,請聯繫 Gate Learn 團隊,他們會及時處理。
  2. 免責聲明:本文所表達的觀點和意見僅代表作者個人觀點,不構成任何投資建議。
  3. Gate Learn 團隊將文章翻譯成其他語言。除非另有說明,否則禁止複製、分發或抄襲翻譯文章。
即刻開始交易
註冊並交易即可獲得
$100
和價值
$5500
理財體驗金獎勵!