Io.net 基準測試揭示 RTX 4090 叢集的成本效能「最佳平衡點」

一篇被第六屆國際人工智慧與區塊鏈會議(AIBC 2025)接受的同行評審論文指出,閒置的消費級GPU(以Nvidia RTX 4090為例)若與傳統資料中心硬體搭配使用,能夠顯著降低大型語言模型推理的運行成本。

該論文題為《Idle Consumer GPUs as a Complement to Enterprise Hardware for LLM Inference》,由io.net發表,是首份在該專案的去中心化雲端上公開異質GPU叢集基準測試的研究。分析比較了消費級顯卡叢集與資料中心級H100加速卡,發現明確的成本與效能權衡,這可能會改變組織設計推理叢集的方式。

根據論文,使用RTX 4090組成的叢集在運行成本約為H100的一半時,能提供62%至78%的H100吞吐量。對於批次工作負載或延遲容忍型應用,代幣成本最多可降低75%。研究人員強調,當開發者能容忍較高尾端延遲,或將消費級硬體用於溢出與背景任務(如開發、批次處理、嵌入生成與大規模評估)時,這些成本節省最具吸引力。

IOG基金會研究主管暨該研究首席作者Aline Almeida表示:「我們的研究結果證明,企業與消費級GPU的混合路由,能在效能、成本與永續性之間取得務實平衡。異質基礎設施不是二選一,而是讓組織能根據自身延遲及預算需求最佳化,同時降低碳足跡。」

混合GPU叢集

論文也坦率面對H100的優勢:Nvidia資料中心顯卡即便在高負載下,仍能維持P99首次產生Token低於55毫秒的效能,這使其在即時、低延遲敏感的應用(如生產型聊天機器人與互動代理)中不可或缺。相較之下,消費級GPU叢集更適合能容忍較長尾端延遲的流量;作者認為,200–500毫秒的P99延遲對許多研究及開發/測試工作負載來說是可接受的。

能源與永續性同樣是考量因素。雖然H100每個Token的能效約為消費級顯卡的3.1倍,研究指出,善用閒置的消費級GPU可延長硬體壽命、利用再生能源占比高的電網,進而降低運算的碳足跡。簡言之,策略性部署混合叢集可同時帶來成本效益與環保效益。

io.net執行長Gaurav Sharma表示:「這份同行評審分析驗證了io.net的核心論點:運算的未來將是分散式、異質化且可觸及的。結合資料中心級與消費級硬體,我們可實現AI先進基礎設施的民主化,同時促進永續發展。」

論文的實用建議直指MLOps團隊與AI開發者。作者建議,實時、低延遲路由應使用企業級GPU,開發、實驗與大量工作負載則可交由消費級叢集處理。他們發現,四卡RTX 4090配置在每百萬Token成本($0.111至$0.149)與H100效能占比間達到最佳平衡。

除了基準測試外,該研究也強化了io.net擴展運算資源的使命——將分散式GPU縫合成可編程、按需取用的運算池。公司將其技術棧(結合io.cloud的可編程基礎設施與io.intelligence的API工具包)定位為新創團隊的完整解決方案,助其無需巨額資本投入資料中心硬體,即可進行訓練、代理執行與大規模推理。

完整的基準測試資料與方法論已在io.net的GitHub倉庫公開,供有志者深入分析數據並重現實驗。這份研究為未來幾年如何以可負擔且永續的方式擴展LLM部署,提供了重要且具實證依據的觀點。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)