英伟达发布Nemotron 3开源模型系列:混合MoE架构+100万token上下文

英伟达周一发布了最新的开源 AI 模型系列 Nemotron 3,同时推出配套的数据集和开发工具。这个系列包含 Nano、Super、Ultra 三个版本,采用了一种叫做”混合潜在专家混合”(latent MoE)的新架构,据说能大幅提升推理效率、降低运行成本。消息公布后,英伟达股价开盘上涨近 1.7%。

英伟达周一发布了新一代开源 AI 模型”Nemotron”,连同配套的数据集和工具库一起开放。官方说法是,这套东西能帮助各行各业更透明、更高效地开发智能体 AI(agentic AI)。按照英伟达的说法,新模型在速度、成本和智能程度上都比之前的版本有提升。

Nemotron 3 分为三个版本:Nano、Super 和 Ultra。它们采用了一种新的”混合潜在专家混合”(latent Mixture-of-Experts,MoE)架构,目标是让开发者能够规模化地构建和部署多智能体系统。

目前已经上线的是 Nemotron 3 Nano,英伟达表示它比上一代效率更高(也就是运行成本更低),在处理多步骤长任务时表现也更好。另外两个更大的版本预计 2026 年上半年推出。

在 Artificial Analysis Intelligence Index v3.0 的测试中,Nemotron 3 Nano 以 52 分在同规模模型里排名第一。

c32d29e8 562c 4858 98ea e7d7d0464fb7

英伟达 CEO 黄仁勋说:

“开放式创新是 AI 进步的基础。通过 Nemotron,我们正在把先进 AI 变成一个开放平台,为开发者提供大规模构建智能体系统所需要的透明性和效率。”

受此消息影响,英伟达股价周一开盘上涨近 1.7%,报 177.97 美元。

71d9c7c9 c475 4bad 8bc1 6245ff744eda

三个版本,百万 token 上下文

Nemotron 3 提供三种规格:Nano 版有 300 亿参数,适合目标明确、对效率要求极高的任务;Super 版有 1000 亿参数,面向多智能体应用,具备高精度推理能力;Ultra 版参数规模约 5000 亿,配备更强的推理引擎,用于更复杂的场景。

英伟达表示,Nemotron 3 采用了混合”专家混合”(MoE)架构来提升可扩展性和效率。官方新闻稿称,这种架构能让企业在构建多智能体自主系统时获得更高的开放性和性能。

英伟达生成式 AI 软件副总裁 Kari Briski 在媒体发布会上说,公司希望通过 Nemotron 3 展示他们从以往版本中不断学习、持续改进的态度。

Briski 说:

“我们认为,凭借这种全新的混合专家架构,再加上 100 万 token 的上下文长度,我们在服务那些希望高度定制模型、用于构建专用 AI 系统的开发者方面,有独特的优势。”

英伟达透露,Nemotron 3 的早期用户包括埃森哲、CrowdStrike、Cursor、德勤、安永、甲骨文云基础设施、Palantir、Perplexity、ServiceNow、西门子和 Zoom。

100 万 token 的上下文能力意味着什么?简单说,模型可以在大型代码库、长文档、长时间对话以及聚合检索内容中持续推理。智能体不用再依赖零碎的文本切分,而是可以在一个上下文窗口里同时保留完整的证据集、历史记录和多阶段计划。

在企业级检索增强生成、合规分析、多小时智能体会话或大型代码仓库理解等场景中,100 万 token 上下文能显著提升事实一致性,减少上下文碎片化的问题。

新架构带来的效率提升

英伟达已经在多款模型中采用了混合 Mamba-Transformer 专家混合架构,包括之前的 Nemotron-Nano-9B-v2。

这种架构基于卡内基梅隆大学和普林斯顿大学的研究,引入了选择性状态空间模型。它让模型在处理长文本时能够保持内部状态,同时降低计算成本,即使在超长上下文场景下也能保持高效。

MoE 组件的好处是,在不增加密集计算成本的前提下,大幅提升有效参数规模。每个 token 只会激活一部分专家,从而降低延迟、提升吞吐量。这种架构特别适合需要大量轻量级智能体并行运行的场景,比如同时生成计划、检查上下文或执行工具流程。

e1abb3f8 be95 44d4 b922 2671931dc5c1

英伟达称,与 Nemotron 2 Nano 相比,这种设计”最多可实现 4 倍的 token 吞吐量提升”,并通过将推理 token 的生成量最多减少 60%,显著降低了推理成本。

Briski 说:

“我们确实需要大幅提升效率,降低单个 token 的成本。实现这个目标有很多方式,我们选择的是通过模型架构层面的创新。混合 Mamba Transformer 架构运行速度快得多、内存占用更低,因为它避免了为每一个 token 生成庞大的注意力映射和键值缓存。”

英伟达还为 Nemotron 3 Super 和 Ultra 引入了另一项创新。Briski 说,公司在这些模型中部署了一项叫做”潜在 MoE”(latent MoE)的技术——专家在共享的潜在表示空间中工作,之后再映射回 token 空间。这种方式在相同推理成本下,可以调用多达 4 倍数量的专家,从而在语义细节、领域抽象和多跳推理方面实现更高水平的专门化。

78c7ee9a 3e03 466b bda1 407c73af7e8f

她打了个比方:

“模型中的这些专家共享一个公共核心,只保留一小部分是各自独有的。有点像一群厨师共用一个大厨房,但每个人都有自己的调料架。”

英伟达不是唯一采用这种架构的公司。AI21 Labs 也在其 Jamba 模型中使用了类似方法,最近的例子是 Jamba Reasoning 3B。

新模型还采用了多 token 预测(MTP),允许模型在一次前向计算中同时预测多个未来 token,大幅提升长推理序列和结构化输出的吞吐效率。在规划、轨迹生成、长链推理或代码生成场景中,MTP 可以降低延迟,提高智能体响应速度。

32a63e0f 3066 4adf a657 e51a65502afc

Nemotron 3 还受益于扩展强化学习训练。其中,Super 和 Ultra 采用了英伟达的 4 位 NVFP4 训练格式,使它们能够在现有基础设施上完成训练,同时不牺牲准确性。

Artificial Analysis 的基准测试结果显示,Nemotron 模型在同等规模的模型中排名靠前。

13e793fe 6ddf 4647 ae05 09c86c70f359

给模型”锻炼”的新环境

作为 Nemotron 3 发布的一部分,英伟达还开放了更多研究资源:发布研究论文和示例提示词,提供开放数据集,让用户可以查看和使用预训练 token 以及后训练样本。最重要的是,英伟达推出了一个叫 NeMoGym 的新工具,让用户可以让模型和智能体进行”锻炼”。

NeMoGym 是一个强化学习实验环境,用户可以让模型在模拟环境中运行,测试模型在后训练阶段的表现。

亚马逊 AWS 也通过其 NovaForge 平台推出了类似工具,主要面向希望测试新训练的蒸馏模型或小型模型的企业用户。

Briski 说,英伟达计划发布的后训练数据样本”在规模上比任何现有的后训练数据集都要大得多,而且使用限制非常宽松,开放程度很高”。

英伟达表示,开发者正在寻找高度智能、性能强大且开放的模型,以便在需要时更好地理解并引导模型,这正是公司选择公开更多训练细节的原因。

Briski 说:

“如今的模型开发者面临一个非常棘手的三重难题:模型要足够开放、足够智能,同时还要有极高的效率。大多数开源模型往往迫使开发者在 token 成本、延迟和吞吐量等效率指标之间做出痛苦的取舍。”

她补充说,开发者希望了解模型是怎么训练的、训练数据从哪来,以及他们可以怎么评估模型。

可能成为美国最主要的开源模型供应商之一

英伟达最广为人知的业务是卖芯片,供 OpenAI 等公司训练闭源模型。但与此同时,英伟达也提供大量自有模型,涵盖物理仿真、自动驾驶等领域,并以开源形式发布,供研究人员或其他公司使用。Palantir 等企业已经把英伟达的模型整合进了自己的产品。

值得注意的是,英伟达选择开源发布这些模型的背景是:中国科技公司推出的开源模型正在被行业广泛采用,包括 DeepSeek、Moonshot AI 和阿里巴巴。此前 Airbnb 已经披露正在使用阿里巴巴的开源模型 Qwen。

与此同时,有报道称 Meta 正在考虑转向闭源路线,这可能使英伟达成为美国最主要的开源模型提供商之一。

Briski 说,公司的目标是提供一个”人们可以信赖的模型”。

“这也是为什么我们把它当作一个’库’来对待,也是为什么我们在软件工程层面对它作出长期承诺。”

随着多智能体 AI 系统不断扩展,开发者越来越多地在一个工作流中同时使用不同类型的模型:一方面依赖闭源专有模型来实现最先进的推理能力,另一方面通过更高效、可定制的开源模型来降低成本。在同一工作流中,将任务在前沿级模型与 Nemotron 模型之间进行路由分配,可以在最大化智能水平的同时,优化 token 成本结构。

开源的 Nemotron 3 还能让初创公司更快地构建和迭代 AI 智能体,加速从原型到企业级部署的过程。General Catalyst 和 Mayfield 旗下的多家被投公司,正在探索使用 Nemotron 3 来打造支持人机协作的 AI”队友”。

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

发表评论