据报道,xAI 约有 550,000 $NVDA H100 和 H200 GPU,但只使用了其中大约 11% 的规模,相当于大约 60,000 台 GPU 的有效利用


据《信息》报道,关键问题不在于硬件是否可用,而在于软件技术栈的效率。在超大规模部署下,空闲时间会迅速增加,因为分布式训练、数据管道、调度以及分析系统变得更难协调
据报道,$META 和 $GOOG 的利用率要高得多,约为 43% 和 46%,原因在于它们的内部软件技术栈更成熟
xAI 的目标是将利用率提升至 50%,但未给出时间表。下一步的主要路径将是更好的基础设施编排、训练软件、数据管道优化以及工作负载管理
查看原文
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论