NVIDIA表示,训练大型语言模型(LLM)是个难题,不过即时提供由 LLM 支援的服务同样不易。在最新一轮的MLPerf 产业基准:Inference v4.1中,NVIDIA 平台在各项资料中心测试项目里皆写下领先成绩。即将推出的 NVIDIA Blackwell 平台由于使用第二代 Transformer引擎与 FP4 Tensor 核心,在处理 MLPerf 最大的 LLM 工作量 Llama 2 70B 之际,首次测试的结果显示其效能较 NVIDIA H100 Tensor Core GPU架构高出四倍之多。

NVIDIA H200 Tensor 核心 GPU 在资料中心类别的各项测试里均有著出色表现,包括基准中最新加入有著467亿个参数、每个token有129亿个活跃参数的 Mixtral 8x7B 混合专家(MoE)LLM。

MoE模型能够在单一部署中回答各式各样的问题与执行更多不同的任务,让使用者有更多种部署 LLM 的方式而大受欢迎。MoE的效率也更高,因其每次进行推论作业只要启动几个专家,代表提供结果的速度比类似大小的密集模型要快上不少。

LLM持续成长,让使用者需要有更多运算能力来处理推论请求。多 GPU 运算的能力已成为必须,以满足当前运行 LLM 的即时延迟需求,还有尽量让最多的使用者享受这项服务。NVIDIA NVLink 和 NVSwitch 可在基于 NVIDIA Hopper 架构的 GPU 之间以高频宽沟通,并为当今即时、具成本效益的大型模型推论作业带来显著优势。而 Blackwell 平台加上有著 72 个 GPU 更大规模的 NVLink 网域,将进一步扩展 NVLink Switch 的功能。

除了 NVIDIA 有提出测试资料,华硕、思科、戴尔科技、富士通、技钢科技、慧与科技、瞻博网路、联想、云达科技和美超微等十家 NVIDIA 的合作伙伴,同样都有提出可靠的 MLPerf Inference 测试资料,突显出 NVIDIA 平台广泛的可供性。

在最新一轮的推论测试里,包括 NVIDIA Hopper 架构、NVIDIA Jetson平台与 NVIDIA Triton 推论伺服器在内的 NVIDIA 产品,在效能方面均大幅提升。与上一轮的成绩相比,NVIDIA H200 GPU在处理生成式 AI 推论时的效能提高了 27%,突显出客户在投资 NVIDIA 平台方面所带来的长期附加价值。

隶属于 NVIDIA AI 平台的 Triton 推论伺服器可搭配 NVIDIA AI Enterprise 软体使用,是一款功能齐全的开源推论伺服器,可协助组织将特定框架的推论伺服器整合至功能一个统一的的平台上。此举有助于降低在生产环境里运行 AI 模型的总持有成本,且将部署模型的时间从几个月缩短到几分钟。

在这一轮 MLPerf 测试中,Triton推论伺服器的效能达到几乎等同于 NVIDIA 裸机的测试结果,显示企业无需再于使用功能丰富的生产级 AI 推论伺服器,与达到高峰吞吐量效能之间做出选择。

当生成式AI模型部署在边缘时可以将影像和视讯等感测器资料,转换成具有强大情境意识的、即时和可执行的见解内容。用于边缘AI和机器人的NVIDIA Jetson平台具有独特的能力,可以运行任何类型的本地端模型,包括LLM、视觉Transformer模型及Stable Diffusion。

这一轮 MLPerf 基准测试中,NVIDIA Jetson AGX Orin 系统模组在处理 GPT-J LLM 工作负载方面,表现较上一轮测试的传输量提高 6.2 倍,延迟表现则改善 2.4 倍。这个拥有 60 亿个参数的模型能够协助改造边缘的生成式 AI。使用者现在可以借由这个通用模型,在边缘与人类语言流畅进行互动,无需针对特定用例进行开发。

这一轮 MLPerf Inference 测试结果显示 NVIDIA 平台从资料中心到边缘,都展示出其多元用途特色及领先的效能表现,在所有基准工作负载上驱动各种最创新的 AI 应用与服务。欢迎阅读技术部落格,了解这次测试结果的细节。

搭载 H200 GPU的系统即日起由第一家宣布正式推出的云端服务供应商 CoreWeave,以及华硕、戴尔、慧与科技、云达科技和美超微等伺服器制造商提供。 


點擊閱讀下一則新聞 點擊閱讀下一則新聞
被动元件大厂国巨被证交所罚5万元 子公司遭骇延迟发重讯