550 亿参数只激活 55 亿:NVIDIA 刚发布的美国最强开源模型,怎么免费用


NVIDIA 在 Computex 2026 上放了一颗炸弹。

550B 总参数。MoE 架构。每次推理只激活 55B。开源权重。

Artificial Analysis 排行榜:美国开源模型第一名。得分 48 分。遥遥领先第二名 Gemma 4 31B(39 分)。

这不是一个能在你笔记本上跑的模型。但它可以免费用。

这个模型是什么

Nemotron 3 Ultra。NVIDIA 在 2026 年 6 月 1 日 Computex 台北发布。

550B 总参数。约 55B 激活参数(~10% 激活率)。MoE + Mamba-Transformer 混合架构。

定位:前沿级开源模型。对标 GPT-5.5、Claude Opus 4.6、Kimi K2。

开源权重。可自行部署。也可通过 API 使用。

为什么值得关注

因为它是美国第一个真正威胁中国开源模型的前沿级开源产品

之前的格局:

  • 前沿闭源:OpenAI、Anthropic、Google
  • 前沿开源:几乎被 DeepSeek、Qwen、Kimi 统治

现在 NVIDIA 入场了。550B。开放权重。不是「能用」级别。是「前沿」级别。

Artificial Analysis 智力排名对比:

模型
得分
来源
Nemotron 3 Ultra
48
NVIDIA(美国)
GLM 5.1
49+
智谱(中国)
Kimi K2.6
~50
月之暗面(中国)
Gemma 4 31B
39
Google(美国)
Nemotron 3 Super
36
NVIDIA(美国)

Ultra 还没超过中国的顶尖模型。但差距很小了。而且它 10% 的激活率意味着推理成本极低。

想了想,NVIDIA 不只是在做模型。它在证明一件事:美国的开源力量不只有 Meta。

它能做什么

几个核心能力:

  • Agent 工作流:NVIDIA 专门为 Agent 场景优化
  • 编码:SWE-bench 级别的代码能力
  • 长 context 推理:支持超长输入
  • 指令跟随:精准执行复杂多步指令
  • 知识工作:研究、分析、报告生成

社区反馈称某些配置下推理速度可达 300+ tok/s。对一个 550B 模型来说,这个速度惊人。得益于 MoE 的 10% 激活率。

谁能跑这个模型

老实说,大多数人跑不动。

本地部署最低要求:

  • 2× A100 80GB(FP8)→ 够跑
  • 4× DGX Spark(128GB 统一内存×4 = 512GB)→ 够跑
  • 1× H100 80GB → 激进量化下可能行

消费级显卡?不行。550B 即使量化到 4bit 也需要 ~140GB。

但你不需要本地跑。

先看完成后的样子


Hermes Agent 接入 Nemotron 3 Ultra API。发一条消息。收到前沿级模型的回复。

cost?接近 $0。OpenRouter 或 NVIDIA NIM 都有免费/极低价的访问通道。

前提条件

  • 已安装 Hermes Agent
  • 有终端环境
  • OpenRouter 账户 或 NVIDIA NIM API Key

阶段一:通过 OpenRouter 接入

第一步:获取 API Key

访问 openrouter.ai[1]。登录。创建 API Key。

第二步:配置 Hermes

hermes model
# 选 OpenRouter
# 粘贴 API Key
# 模型选:nvidia/nemotron-3-ultra

或编辑 ~/.hermes/config.yaml

model:
  provider: openrouter
  default: nvidia/nemotron-3-ultra

第三步:验证

hermes
> 用 Rust 写一个高性能的 JSON parser,支持流式解析

验证:回复质量高,代码完整,有注释。

阶段二:通过 NVIDIA NIM 接入

NVIDIA 自己的推理平台。可能有免费额度。

第四步:注册 NVIDIA NIM

访问 build.nvidia.com[2]。注册开发者账户。获取 API Key。

第五步:配置 Hermes

model:
  provider: custom
  default: nemotron-3-ultra
  api_base: https://integrate.api.nvidia.com/v1
  context_length: 131072

在 ~/.hermes/.env 中添加:

NVIDIA_API_KEY=nvapi-你的key

验证:正常回复。检查 NIM 控制台确认 token 用量。

阶段三:本地部署(高端硬件)

如果你有 2× A100 80GB 或多台 DGX Spark:

第六步:下载权重

huggingface-cli download nvidia/Nemotron-3-Ultra-550B-A55B \
  --local-dir ~/models/nemotron-ultra

第七步:用 vLLM 或 TensorRT-LLM 部署

python -m vllm.entrypoints.openai.api_server \
  --model ~/models/nemotron-ultra \
  --tensor-parallel-size 2 \
  --max-model-len 131072 \
  --quantization fp8 \
  --port 8000

第八步:Hermes 指向本地

model:
  provider: custom
  default: nemotron-ultra
  api_base: http://localhost:8000/v1
  context_length: 131072

本地部署的好处:无速率限制、无数据出境、无 per-token 费用。代价是硬件投入。

阶段四:Smart Routing 策略

最佳实践不是全用 Ultra。是按任务分配。

# 日常简单任务 → 免费小模型
# hermes 会话中用 /model 切换

# 简单对话、摘要 → DeepSeek V4 Flash :free
# 复杂编码、Agent → Nemotron 3 Ultra(付费但便宜)
# 本地隐私任务 → Qwen3.6-35B-A3B(本地)

这样大部分时间花 $0。只有真正需要前沿能力的任务才调用 Ultra。

完整流程一览


第一次做的建议

先走 API 路线。OpenRouter 或 NIM。确认模型质量满足需求。

不要拿 Ultra 做简单任务。它是大锤。用来砸钉子太浪费。留给真正复杂的编码、Agent 链路、长 context 分析。

如果你之前用 DeepSeek V4 Flash,切到 Ultra 最直观的感受是:复杂任务的成功率明显提高。但简单任务的区别不大。

容易踩的坑

坑 1:以为开源就能本地跑开源 ≠ 能在你电脑上跑。550B 模型需要至少 160GB 显存。99% 的人只能走 API。

坑 2:混淆 Nemotron 3 Nano / Super / Ultra三个是不同模型。Nano(30B-A3B)能本地跑。Super(120B-A12B)需要 DGX Spark。Ultra(550B-A55B)需要 A100 集群。

坑 3:context 设太大导致延迟爆炸Ultra 支持很长的 context。但 128K 输入可能首 token 等 20-60 秒。日常用 32K。

坑 4:忽略了 Smart Routing 的重要性Ultra 不便宜(虽然比 Claude 便宜很多)。用 /model 在会话中灵活切换,才是正确用法。

收尾

NVIDIA 用 Nemotron 3 Ultra 证明了一件事:

美国公司也能做开源前沿模型。550B 参数。10% 激活率。推理快、成本低。

它不是用来跑在你笔记本上的。它是用来让你通过 API 获得接近 GPT-5.5 级别的能力,但只花零头的钱。

本地 Agent 用 Nano/Super。云端重任务用 Ultra。这是 NVIDIA 给出的完整方案。

从显卡到模型到 Agent 框架。从本地到云端。一家公司。全栈布局。


原文链接:https://mp.weixin.qq.com/s/ywnCDCv2xktPX3PjetkiUw

发表评论