
NVIDIA 在 Computex 2026 上放了一颗炸弹。
550B 总参数。MoE 架构。每次推理只激活 55B。开源权重。
Artificial Analysis 排行榜:美国开源模型第一名。得分 48 分。遥遥领先第二名 Gemma 4 31B(39 分)。
这不是一个能在你笔记本上跑的模型。但它可以免费用。
这个模型是什么
Nemotron 3 Ultra。NVIDIA 在 2026 年 6 月 1 日 Computex 台北发布。
550B 总参数。约 55B 激活参数(~10% 激活率)。MoE + Mamba-Transformer 混合架构。
定位:前沿级开源模型。对标 GPT-5.5、Claude Opus 4.6、Kimi K2。
开源权重。可自行部署。也可通过 API 使用。
为什么值得关注
因为它是美国第一个真正威胁中国开源模型的前沿级开源产品。
之前的格局:
-
前沿闭源:OpenAI、Anthropic、Google -
前沿开源:几乎被 DeepSeek、Qwen、Kimi 统治
现在 NVIDIA 入场了。550B。开放权重。不是「能用」级别。是「前沿」级别。
Artificial Analysis 智力排名对比:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ultra 还没超过中国的顶尖模型。但差距很小了。而且它 10% 的激活率意味着推理成本极低。
想了想,NVIDIA 不只是在做模型。它在证明一件事:美国的开源力量不只有 Meta。
它能做什么
几个核心能力:
-
Agent 工作流:NVIDIA 专门为 Agent 场景优化 -
编码:SWE-bench 级别的代码能力 -
长 context 推理:支持超长输入 -
指令跟随:精准执行复杂多步指令 -
知识工作:研究、分析、报告生成
社区反馈称某些配置下推理速度可达 300+ tok/s。对一个 550B 模型来说,这个速度惊人。得益于 MoE 的 10% 激活率。
谁能跑这个模型
老实说,大多数人跑不动。
本地部署最低要求:
-
2× A100 80GB(FP8)→ 够跑 -
4× DGX Spark(128GB 统一内存×4 = 512GB)→ 够跑 -
1× H100 80GB → 激进量化下可能行
消费级显卡?不行。550B 即使量化到 4bit 也需要 ~140GB。
但你不需要本地跑。
先看完成后的样子

Hermes Agent 接入 Nemotron 3 Ultra API。发一条消息。收到前沿级模型的回复。
cost?接近 $0。OpenRouter 或 NVIDIA NIM 都有免费/极低价的访问通道。
前提条件
-
已安装 Hermes Agent -
有终端环境 -
OpenRouter 账户 或 NVIDIA NIM API Key
阶段一:通过 OpenRouter 接入
第一步:获取 API Key
访问 openrouter.ai[1]。登录。创建 API Key。
第二步:配置 Hermes
hermes model
# 选 OpenRouter
# 粘贴 API Key
# 模型选:nvidia/nemotron-3-ultra
或编辑 ~/.hermes/config.yaml:
model:
provider: openrouter
default: nvidia/nemotron-3-ultra
第三步:验证
hermes
> 用 Rust 写一个高性能的 JSON parser,支持流式解析
验证:回复质量高,代码完整,有注释。
阶段二:通过 NVIDIA NIM 接入
NVIDIA 自己的推理平台。可能有免费额度。
第四步:注册 NVIDIA NIM
访问 build.nvidia.com[2]。注册开发者账户。获取 API Key。
第五步:配置 Hermes
model:
provider: custom
default: nemotron-3-ultra
api_base: https://integrate.api.nvidia.com/v1
context_length: 131072
在 ~/.hermes/.env 中添加:
NVIDIA_API_KEY=nvapi-你的key
验证:正常回复。检查 NIM 控制台确认 token 用量。
阶段三:本地部署(高端硬件)
如果你有 2× A100 80GB 或多台 DGX Spark:
第六步:下载权重
huggingface-cli download nvidia/Nemotron-3-Ultra-550B-A55B \
--local-dir ~/models/nemotron-ultra
第七步:用 vLLM 或 TensorRT-LLM 部署
python -m vllm.entrypoints.openai.api_server \
--model ~/models/nemotron-ultra \
--tensor-parallel-size 2 \
--max-model-len 131072 \
--quantization fp8 \
--port 8000
第八步:Hermes 指向本地
model:
provider: custom
default: nemotron-ultra
api_base: http://localhost:8000/v1
context_length: 131072
本地部署的好处:无速率限制、无数据出境、无 per-token 费用。代价是硬件投入。
阶段四:Smart Routing 策略
最佳实践不是全用 Ultra。是按任务分配。
# 日常简单任务 → 免费小模型
# hermes 会话中用 /model 切换
# 简单对话、摘要 → DeepSeek V4 Flash :free
# 复杂编码、Agent → Nemotron 3 Ultra(付费但便宜)
# 本地隐私任务 → Qwen3.6-35B-A3B(本地)
这样大部分时间花 $0。只有真正需要前沿能力的任务才调用 Ultra。
完整流程一览

第一次做的建议
先走 API 路线。OpenRouter 或 NIM。确认模型质量满足需求。
不要拿 Ultra 做简单任务。它是大锤。用来砸钉子太浪费。留给真正复杂的编码、Agent 链路、长 context 分析。
如果你之前用 DeepSeek V4 Flash,切到 Ultra 最直观的感受是:复杂任务的成功率明显提高。但简单任务的区别不大。
容易踩的坑
坑 1:以为开源就能本地跑开源 ≠ 能在你电脑上跑。550B 模型需要至少 160GB 显存。99% 的人只能走 API。
坑 2:混淆 Nemotron 3 Nano / Super / Ultra三个是不同模型。Nano(30B-A3B)能本地跑。Super(120B-A12B)需要 DGX Spark。Ultra(550B-A55B)需要 A100 集群。
坑 3:context 设太大导致延迟爆炸Ultra 支持很长的 context。但 128K 输入可能首 token 等 20-60 秒。日常用 32K。
坑 4:忽略了 Smart Routing 的重要性Ultra 不便宜(虽然比 Claude 便宜很多)。用 /model 在会话中灵活切换,才是正确用法。
收尾
NVIDIA 用 Nemotron 3 Ultra 证明了一件事:
美国公司也能做开源前沿模型。550B 参数。10% 激活率。推理快、成本低。
它不是用来跑在你笔记本上的。它是用来让你通过 API 获得接近 GPT-5.5 级别的能力,但只花零头的钱。
本地 Agent 用 Nano/Super。云端重任务用 Ultra。这是 NVIDIA 给出的完整方案。
从显卡到模型到 Agent 框架。从本地到云端。一家公司。全栈布局。