Fugatto 是一个基础生成式转换器模型,建立在该团队多年来于语音建模、音讯处理及音讯理解的研究基础之上。完整版本使用25亿个参数,并在搭载32个NVIDIA H100 Tensor核心GPU的 NVIDIA DGX 系统上进行训练。 想要深入探索 Fugatto 的特色,连结在此。
Fugatto 是一个基础生成式转换器模型,建立在该团队多年来于语音建模、音讯处理及音讯理解的研究基础之上。完整版本使用25亿个参数,并在搭载32个NVIDIA H100 Tensor核心GPU的 NVIDIA DGX 系统上进行训练。 想要深入探索 Fugatto 的特色,连结在此。:模型的最大挑战在于资料集的构建。Fugatto 的研发团队集合了来自印度、巴西、中国、约旦及韩国的专家,他们耗时一年,整合了数百万个音讯样本,并利用多种策略创建与扩展资料范围,以提升模型对多语言及多口音的支持能力。团队的核心成员之一、NVIDIA 应用音讯研究部门经理 Rafael Valle 表示:「我们希望创造一个能像人类一样理解并生成声音的模型。」
Valle 不仅是 Fugatto 的主要推手之一,还是一位管弦乐指挥家与作曲家。他指出,Fugatto 是首个展现「突现性质(emergent property)」的基础生成式音讯模型,能透过自由形式指令执行多种复杂的声音任务,并在资料与模型规模上持续发展。
Fugatto 的诞生为音乐制作人与广告创意人员开辟了新的天地。曾多次获得白金唱片殊荣的制作人 Ido Zmishlany表示:「这项技术太疯狂了!它让我能在录音室内即时创造新声音,实现过去难以想像的可能性。」
作为 One Take Audio 的共同创办人,Zmishlany 也提到音乐科技的演进如何推动音乐史:「电吉他带来摇滚乐,采样器催生嘻哈音乐,而 AI 正在为我们谱写下一个篇章。这是一个全新乐器,改变了我们创作音乐的方式。」
广告创作者则可利用 Fugatto 为多国市场快速定制配音,调整口音与情感,以增强本地化效果,节省大量时间与资源。
Fugatto 的应用范畴超越传统音讯创作,还可个人化语言学习工具,让使用者选择自己或家人熟悉的声音讲授课程内容。电玩开发人员则能借此即时创造动态声景,例如根据玩家动作变化,让背景音乐或环境音效随之调整,提升沉浸感。
AI 研究员 Rohan Badlani 提到,Fugatto 的创新功能如时间插值(temporal interpolation),能模拟声音随时间变化的过程,例如暴风雨逐渐消散的声音,或雷雨伴随鸟鸣声迎接清晨的声景。「这让我感觉自己仿佛成了艺术家,尽管我的专业是电脑科学。」
Fugatto 还支持结合不同指令的技术,称为ComposableART。使用者可以调整多种属性,例如让模型用法国口音演绎带有悲伤情感的文字,并精细控制其程度。
Valle 举例说明:「模型甚至能生成喇叭与萨克斯风融合的独特声音。」经过微调后,Fugatto 还能基于少量歌唱资料,产生高品质的歌声,应用范围涵盖音乐、语音与艺术创作。
对于 Fugatto 的潜力,Valle 满怀信心地表示:「这只是我们迈向未来的第一步。」随著无监督多任务学习的技术进步,Fugatto 有望成为音讯创作与转换的核心技术之一,激发更多创意灵感,并重塑人们与声音互动的方式。