10 月 15 日至 17 日于圣荷西会议中心举行 2024 OCP 全球高峰会,NVIDIA将与 OCP 社群分享 NVIDIA GB200 NVL72 系统机电设计的关键组成,包括机架架构、运算与交换器托盘机构、液冷与热环境规格,以及 NVIDIA NVLink缆线盒的体积容量,以支援更高的运算密度与网路频宽。
NVIDIA 已经横跨多个硬体世代做出多次正式贡献给 OCP,其中包括 NVIDIA HGX H100 基板设计规格,以帮助生态系提供来自全球电脑制造商更多的产品选择,还有扩大人工智慧(AI)的应用范围。NVIDIA Spectrum-X 乙太网路平台更加符合 OCP 社群所制定的规格,可让企业部署 OCP 认可的设备,发挥 AI 工厂的效能潜力,又能保留原本的投资及保持软体一致性。
NVIDIA 创办人暨执行长黄仁勋表示,「NVIDIA 从跟 OCP 合作十年的基础出发,与产业领导厂商共同努力,制定可在整个资料中心广泛采用的规格与设计。我们推动开放标准,协助全球各地的组织充分发挥加速运算技术的潜力,打造未来的 AI 工厂。」
电脑制造商采用基于 NVIDIA MGX 模组化架构的 GB200 NVL72,以成本效益的方式快速建设资料中心基础设施。这款液冷系统连接 36 颗 NVIDIA Grace CPU 和 72 颗 NVIDIA Blackwell GPU,并将 72 颗 GPU 的 NVIDIA NVLink 网域整合为一个大型 GPU。这样的设计使其在处理大型语言模型的即时推论时,速度比 NVIDIA H100 Tensor 核心 GPU 快上 30 倍。
此外,新一代的 NVIDIA ConnectX-8 SuperNIC 已加入 NVIDIA Spectrum-X 乙太网路平台,支援 OCP 的交换机抽象层介面(SAI)及 Software for Open Networking in the Cloud(SONiC)标准。这使得客户能利用 Spectrum-X 的动态路由和基于遥测的壅塞控制技术,提升横向扩充式 AI 基础设施的乙太网路效能。
ConnectX-8 SuperNIC 支援高达 800Gb/s 的加速网路,并针对大规模 AI 工作负载进行最佳化,将于明年推出,协助组织建立高度灵活的网路。
随著全球转向加速运算与 AI 运算技术,资料中心基础设施变得日渐复杂。NVIDIA 正与 40 多家全球电子产品制造商合作,这些制造商提供关键元件以简化 AI 工厂的开发流程。
多家合作伙伴也在 Blackwell 平台上进行创新,包括 Meta。Meta 计划将搭载 GB200 NVL72 的 Catalina AI 机架架构贡献给 OCP,为电脑制造商提供灵活选择,建立高运算密度系统,以满足资料中心日益增长的效能与能源效率需求。
Meta 工程部门副总裁 Yee Jiun Song 表示,「NVIDIA 是开放运算标准的主要贡献者,过去两年来其高效能运算平台一直是我们 Grand Teton 伺服器的基础。我们不断努力满足大规模 AI 的运算需求,NVIDIA 在机架设计与模组化架构的最新贡献将加速整个产业的 AI 基础设施开发。」