辉达表示,Meta 的工程师们使用了一个搭载 24,576 个 NVIDIA H100 Tensor 核心 GPU 的电脑丛集,与 NVIDIA Quantum-2 InfiniBand 网路连接,对 Llama 3 进行了训练。在 NVIDIA 的支援下,Meta 为其旗舰大型语言模型调整了网路、软体和模型架构。为了进一步推进生成式人工智慧(AI)发展,Meta 最近说明了将其基础设施扩展到 35 万个 H100 GPU 的计划。
辉达指出,在 NVIDIA GPU 上加速的 Llama 3 版本,今天已经可以在云端、资料中心、边缘和个人电脑上使用。开发者可以从浏览器上尝试在 ai.nvidia.com上使用 Llama 3。它被打包为 NVIDIA NIM微服务,具有标准的应用程式介面,可以在任何地方部署。企业可以使用 NVIDIA NeMo根据其资料微调 Llama 3,NVIDIA NeMo 是一个适用于大型语言模型的开源框架,并为安全、受到支援的 NVIDIA AI Enterprise平台的一部分。客制化模型可以使用 NVIDIA TensorRT-LLM进行推论最佳化,并使用 NVIDIA Triton 推论伺服器进行部署。
Llama 3 也可以在 NVIDIA Jetson Orin上运行,用于机器人和边缘运算设备,创建像 Jetson AI 实验室中互动式代理人一样的应用。此外,适用于工作站和个人电脑的NVIDIA RTX和 GeForce RTX GPU,可以加速 Llama 3 的推论速度。这些系统为开发者提供了全球超过一亿个 NVIDIA 加速系统的目标。
辉达说明,为聊天机器人部署大型语言模型时,最佳状态是在低延迟、良好的读取速度和最佳的 GPU 使用之间取得平衡,以降低成本。这样的服务需要以大约每秒 10 个词元、使用者阅读速度两倍左右的速度来传送词元,这些词元大致相当于大型语言模型的词汇。
应用这些指标,在使用具有 700 亿个参数的 Llama 3 版本的初始测试中,单一 NVIDIA H200 Tensor 核心 GPU 每秒可产生约 3,000 个词元,足以同时为约 300 个使用者提供服务。这意味著一台配备 8 个 H200 GPU 的 NVIDIA HGX 伺服器每秒可提供 24,000 个词元,并透过同时支援 2,400 多个使用者来进一步最佳化成本。
针对边缘设备,具备 80 亿个参数的 Llama 3 版本在 Jetson AGX Orin 上每秒最多可生成40 个词元,在 Jetson Orin Nano 上则每秒可生成15个词元。
辉达强调,作为积极的开源贡献者,NVIDIA 致力于最佳化社群软体,帮助使用者应对最棘手的挑战。开源模型还可以提高AI的透明度,让使用者广泛分享AI安全性和弹性方面的工作。详细了解 NVIDIA 的 AI 推论平台,包括 NIM、TensorRT-LLM 和 Triton 如何使用像是低阶适应(low-rank adaptation)等最先进的技术来加速最新的大型语言模型。