NVIDIA表示,由于 NVIDIA AI 平台的可扩展性,Eos 现在可以更快地训练 GPT-3 175B 等大规模 AI 模型,这种出色的 AI 效能可以转化为巨大的商机。例如,在NVIDIA最近的财报电话会议,NVIDIA述了大型语言模型服务供应商如何在 NVIDIA HGX H200 伺服器上运行 Llama 3 70B 模型,在短短四年内将一美元投资转化为七美元。这个投资回报是假设一家大型语言服务供应商使用吞吐量为每秒 24,000词元的HGX H200伺服器,以每百万词元0.6美元的价格提供 Llama 3 70B 服务。

NVIDIA说明,NVIDIA H200 Tensor GPU 基于 Hopper 架构的优势而构建,拥有 141GB HBM3 记忆体,与 H100 GPU 相比,记忆体频宽增加了 40% 以上。 NVIDIA H200 Tensor Core GPU 突破了 AI 训练的极限,在其首次亮相的 MLPerf Training 中延伸 H100 的效能并提高了 47%。由于对软体堆叠进行了大量最佳化,NVIDIA使用 512 个H100 GPU 的配置所提交的结果现在比一年前快了 27%。这项改进凸显了即使使用相同的硬体,持续的软体增强也可以显著提高效能。

随著 GPU 数量从去年的 3,584 个 H100 GPU 增加到此次提交的 11,616 个 H100 GPU,增加 3.2 倍,提交的效能也随之等比增加。

NVIDIA指出,随著企业寻求客制化预训练的大型语言模型,大型语言模型微调正在成为产业关键的工作负载。 本轮MLPerf引入基于应用于 Meta Llama 2 70B 的热门低秩适应(LoRA)技术的全新大型语言模型微调基准。NVIDIA 平台在这项任务中表现出色,从 8 个GPU扩展到 1,024 个GPU,NVIDIA提交了在最大规模的运算结果创纪录的 1.5 分钟内完成了基准测试。

NVIDIA也在于上轮提交的相同系统规模下,将Stable Diffusion v2 训练效能提高了 80%,这反映了 NVIDIA 软体堆叠的诸多强化,展示了软体和硬体改进如何并进以提供顶级效能。基于 R-GAT 的新图神经网路(GNN)测试中,配备 H100 GPU 的 NVIDIA 平台在小规模和大规模方面均表现出色。与 H100 相比,H200 在单节点 GNN 训练方面提升了 47%。这展示了 NVIDIA GPU 的强大效能和高效率,使其成为各种 AI 应用的理想选择。

NVIDIA的10家合作伙伴提交结果,反映了NVIDIA AI生态系的广度,包括华硕、戴尔科技集团、富士通、技嘉科技、慧与企业、联想、甲骨文、云达科技、美超微和Sustainable Metal Cloud。此广泛的参与以及各伙伴杰出的基准测试结果,突显了 NVIDIA AI 平台在整个产业的广泛采用和信任。


點擊閱讀下一則新聞 點擊閱讀下一則新聞
国泰金COP29气候领袖论坛 总座李长庚:解锁系统性变革有两关键