NVIDIA则是使用开发客制化生成式 AI 的端对端平台 NVIDIA NeMo 蒸馏(distillation)出Minitron 模型。NVIDIA 应用深度学习研究部门副总裁 Bryan Catanzaro 表示,「我们将两种最佳化AI的方法加在一起。这包括以剪枝的方式将 Mistral NeMo 的 120 亿个参数缩减为 80 亿个,并且采用蒸馏方式提高精确度。这么一来便能降低 Mistral-NeMo-Minitron 8B 的运算成本,又可以提供媲美原始模型的精确度。」
小型语言模型可以即时在工作站和笔记型电脑上执行,这一点跟大型语言模型不同。此举使得资源有限的组织更容易在基础设施中部署生成式 AI 功能,又能取得最佳的成本、运作效率和能源使用程度。由于无需从边缘装置将资料传送到伺服器,在边缘装置上以本机端的方式运行语言模型另外有著安全性方面的优势。
开发人员可以透过包装成有著标准应用程式介面(API)的 NVIDIA NIM 微服务使用Mistral-NeMo-Minitron 8B,或从 Hugging Face 下载模型。此NVIDIA NIM也即将开放下载,可以在数分钟内部署在任何 GPU 加速系统上。
与类似大小的模型相比,Mistral-NeMo-Minitron 8B 模型在九个热门的语言模型基准测试均处于领先地位。这些基准涵盖各种任务,包括语言理解、常识推理、数学推理、总结、编码以及产生真实答案的能力。
Mistral-NeMo-Minitron 8B 模型包装成 NVIDIA NIM 微服务,并且最佳化至最佳状态,有著低延迟的特色,能加快回应使用者的速度,并有高输送量以降低生产环境的运算成本。
开发人员在某些情况下可能想要使用更小的模型,以便在智慧型手机或机器人等嵌入式装置上运行。他们为此可以下载有著 80 亿个参数的模型,并针对企业特定的应用程式使用 NVIDIA AI Foundry 剪枝和蒸馏出较小且最佳的神经网路。
AI Foundry 平台与服务为开发人员提供完整堆叠解决方案,协助他们客制化基础模型,并且将其包装成 NIM 微服务。AI Foundry 平台与服务提供热门的基础模型、NVIDIA NeMo 平台与 NVIDIA DGX Cloud 上的专用容量。使用 NVIDIA AI Foundry 的开发人员同样能够使用 NVIDIA AI Enterprise,这个提供安全性、稳定性及支援部署到生产环境的软体平台。
由于原版的 Mistral-NeMo-Minitron 8B 模型一开始就有著最先进的精确度,因此使用 AI Foundry 瘦身后的版本依旧只要极少的训练资料与运算基础设施,就能达到高精确度的表现。
研究团队用剪枝加上蒸馏的方法,让较小的模型达到高精确度表现。剪枝会去除掉对精确度影响最小的模型权重(weight),以缩小神经网路的规模。研究团队在蒸馏模型时,会在一个小资料集上重新训练这个修剪过的模型,以大幅提升在修剪过程中降低的精确度。
这项技术代表只要使用原始资料集的一小部分,就能训练一系列相关模型里每个额外的模型,这跟从头训练一个较小的模型相比,剪枝和蒸馏一个较大的模型可以省下高达 40 倍的运算成本。
NVIDIA 在本周还发表了另一个小型语言模型 Nemotron-Mini-4B-Instruct,这个模型针对NVIDIA GeForce RTX AI PC 与笔记型电脑上低记忆体使用率与更快回应时间最佳化。这个模型以 NVIDIA NIM 微服务形式提供,让开发人员可以部署到云端与装置上。而它也是 NVIDIA ACE 的一部分,NVIDIA ACE 是一套制作数位人类的技术,提供由生成式 AI 支援的语音、智慧与动画。 透过浏览器或 ai.nvidia.com 上的 API,体验这两个包装成 NIM 微服务的模型。