据路透社报导,12位AI科学家、研究员和投资人透露,这些新技术已经应用于OpenAI最新发布的o1模型中,显示出对AI行业「扩大规模」策略的挑战。传统上,AI公司通过增加数据量和计算能力来提升模型表现,但这种做法逐渐显现出瓶颈。

前开放人工智慧研究中心(OpenAI)联合创始人、现任超智慧(safe superintelligence)实验室负责人的苏茨克弗(Ilya Sutskever)表示,过去几年,依靠大量无标注数据进行预训练的方式逐渐失去效果。他强调,「2010年代是规模扩大的时代,现在我们回到了探索与发现的时代。找到正确的扩展方法比以往更重要」。

目前AI实验室内部已经面临模型训练延误和结果不如预期的情况。据知情人士透露,训练大型语言模型的成本可达数千万美元,并涉及大量芯片同步运行。然而,硬体故障频发,训练过程耗时数月,最终结果不确定。此外,随著模型对大量数据的需求增加,全球易于获取的数据资源已几近耗尽,电力短缺问题也对训练造成阻碍。

为应对这些挑战,研究人员正探索「智慧演算」(test-time compute)技术,增强模型在推理阶段的表现。这一方法允许AI在做出决策前评估多个选项,选择最佳方案。据OpenAI研究员布朗(Noam Brown)在10月于旧金山举办的TED AI大会上表示,智慧演算让模型在特定任务上表现出色,提升效果相当于将模型规模扩大10万倍。

OpenAI的新模型「o1」(曾称为Q-star与Strawberry)已采用此技术,使模型能进行多步推理,模仿人类的思维过程。公司也计划在未来的更大型基础模型中应用这一技术。

据知情人士透露,除OpenAI外,Anthropic、xAI与Google DeepMind等顶级AI实验室也在研发类似技术。OpenAI公司在10月的一次技术大会上表示:「我们看到很多可以快速改进的机会,等到其他人追上来时,我们会再领先三步」。

这一趋势可能改变AI硬体需求格局。目前Nvidia的AI芯片在训练市场占据主导地位,但在推理市场可能面临更多竞争。Nvidia指出,公司对新技术的需求保持乐观,其最新AI芯片Blackwell的需求量非常高。Nvidia执行长黄仁勋上个月在印度一场会议上称,「我们发现了推理阶段的第二扩展法则,这为Blackwell的需求带来了巨大提升」。


點擊閱讀下一則新聞 點擊閱讀下一則新聞
贺锦丽竟因「这主题」 选前拒绝知名播客主持采访