NVIDIA表示,Colossus目前是全球最大的AI超级电脑,专为训练xAI的Grok系列大型语言模型设计,并为X Premium用户提供聊天机器人功能。据悉,xAI计划将Colossus的规模扩大至20万个NVIDIA Hopper GPU,以提升处理能力。
xAI与NVIDIA在仅122天内完成了Colossus超级电脑及其配套设施的建置。如此大规模的系统建置通常需耗时数月至数年,而xAI从安装第一个机架到AI训练启动仅花费了19天。
Colossus在训练Grok模型的过程中展现出强大的网路效能。其三层网路结构在流量高峰时,依然没有应用延迟或封包遗失的问题。借由Spectrum-X壅塞控制技术,Colossus保持95%的资料输送效率。一般标准乙太网路无法在大规模下达到此效能,可能会造成频繁的流量碰撞,并仅能提供约60%的资料输送量,显示出Spectrum-X的技术优势。
NVIDIA网路事业部资深副总裁Gilad Shainer表示,AI已成为关键业务,需求更高的效能、安全性、扩充能力与成本效益。NVIDIA Spectrum-X乙太网路平台的设计,正是为像xAI这样的创新公司加速AI工作负载处理、分析及部署,推动AI解决方案更快地进入市场。
xAI创办人马斯克(Elon Musk)在X平台上表示,Colossus是全球最强大的训练系统。xAI团队、NVIDIA及合作伙伴的表现相当出色,为Colossus的成功贡献巨大。
xAI发言人指出,xAI建造出全球最大、最强大的超级电脑,NVIDIA的Hopper GPU与Spectrum-X让我们突破了大规模AI训练的限制,并在乙太网路标准基础上打造超级加速且最佳化的AI工厂。
Spectrum-X平台的核心设备为Spectrum SN5600乙太网路交换器,支援800Gb/s连接埠速度,并采用Spectrum-4交换器ASIC。xAI选择将Spectrum-X SN5600交换器与NVIDIA BlueField-3 SuperNIC搭配使用,以实现前所未有的效能。