550 亿参数只激活 55 亿：NVIDIA 刚发布的美国最强开源模型，怎么免费用

NVIDIA 在 Computex 2026 上放了一颗炸弹。

550B 总参数。MoE 架构。每次推理只激活 55B。开源权重。

Artificial Analysis 排行榜：美国开源模型第一名。得分 48 分。遥遥领先第二名 Gemma 4 31B（39 分）。

这不是一个能在你笔记本上跑的模型。但它可以免费用。

这个模型是什么

Nemotron 3 Ultra。NVIDIA 在 2026 年 6 月 1 日 Computex 台北发布。

550B 总参数。约 55B 激活参数（~10% 激活率）。MoE + Mamba-Transformer 混合架构。

定位：前沿级开源模型。对标 GPT-5.5、Claude Opus 4.6、Kimi K2。

开源权重。可自行部署。也可通过 API 使用。

为什么值得关注

因为它是美国第一个真正威胁中国开源模型的前沿级开源产品。

之前的格局：

前沿闭源：OpenAI、Anthropic、Google
前沿开源：几乎被 DeepSeek、Qwen、Kimi 统治

现在 NVIDIA 入场了。550B。开放权重。不是「能用」级别。是「前沿」级别。

Artificial Analysis 智力排名对比：

模型	得分	来源
Nemotron 3 Ultra	48	NVIDIA（美国）
GLM 5.1	49+	智谱（中国）
Kimi K2.6	~50	月之暗面（中国）
Gemma 4 31B	39	Google（美国）
Nemotron 3 Super	36	NVIDIA（美国）

Ultra 还没超过中国的顶尖模型。但差距很小了。而且它 10% 的激活率意味着推理成本极低。

想了想，NVIDIA 不只是在做模型。它在证明一件事：美国的开源力量不只有 Meta。

它能做什么

几个核心能力：

Agent 工作流：NVIDIA 专门为 Agent 场景优化
编码：SWE-bench 级别的代码能力
长 context 推理：支持超长输入
指令跟随：精准执行复杂多步指令
知识工作：研究、分析、报告生成

社区反馈称某些配置下推理速度可达 300+ tok/s。对一个 550B 模型来说，这个速度惊人。得益于 MoE 的 10% 激活率。

谁能跑这个模型

老实说，大多数人跑不动。

本地部署最低要求：

2× A100 80GB（FP8）→ 够跑
4× DGX Spark（128GB 统一内存×4 = 512GB）→ 够跑
1× H100 80GB → 激进量化下可能行

消费级显卡？不行。550B 即使量化到 4bit 也需要 ~140GB。

但你不需要本地跑。

先看完成后的样子

Hermes Agent 接入 Nemotron 3 Ultra API。发一条消息。收到前沿级模型的回复。

cost？接近 $0。OpenRouter 或 NVIDIA NIM 都有免费/极低价的访问通道。

前提条件

已安装 Hermes Agent
有终端环境
OpenRouter 账户或 NVIDIA NIM API Key

阶段一：通过 OpenRouter 接入

第一步：获取 API Key

访问 openrouter.ai^[1]。登录。创建 API Key。

第二步：配置 Hermes

hermes model
# 选 OpenRouter
# 粘贴 API Key
# 模型选：nvidia/nemotron-3-ultra

或编辑 ~/.hermes/config.yaml：

model:
  provider: openrouter
  default: nvidia/nemotron-3-ultra

第三步：验证

hermes
> 用 Rust 写一个高性能的 JSON parser，支持流式解析

验证：回复质量高，代码完整，有注释。

阶段二：通过 NVIDIA NIM 接入

NVIDIA 自己的推理平台。可能有免费额度。

第四步：注册 NVIDIA NIM

访问 build.nvidia.com^[2]。注册开发者账户。获取 API Key。

第五步：配置 Hermes

model:
  provider: custom
  default: nemotron-3-ultra
  api_base: https://integrate.api.nvidia.com/v1
  context_length: 131072

在 ~/.hermes/.env 中添加：

NVIDIA_API_KEY=nvapi-你的key

验证：正常回复。检查 NIM 控制台确认 token 用量。

阶段三：本地部署（高端硬件）

如果你有 2× A100 80GB 或多台 DGX Spark：

第六步：下载权重

huggingface-cli download nvidia/Nemotron-3-Ultra-550B-A55B \
  --local-dir ~/models/nemotron-ultra

第七步：用 vLLM 或 TensorRT-LLM 部署

python -m vllm.entrypoints.openai.api_server \
  --model ~/models/nemotron-ultra \
  --tensor-parallel-size 2 \
  --max-model-len 131072 \
  --quantization fp8 \
  --port 8000

第八步：Hermes 指向本地

model:
  provider: custom
  default: nemotron-ultra
  api_base: http://localhost:8000/v1
  context_length: 131072

本地部署的好处：无速率限制、无数据出境、无 per-token 费用。代价是硬件投入。

阶段四：Smart Routing 策略

最佳实践不是全用 Ultra。是按任务分配。

# 日常简单任务 → 免费小模型
# hermes 会话中用 /model 切换

# 简单对话、摘要 → DeepSeek V4 Flash :free
# 复杂编码、Agent → Nemotron 3 Ultra（付费但便宜）
# 本地隐私任务 → Qwen3.6-35B-A3B（本地）

这样大部分时间花 $0。只有真正需要前沿能力的任务才调用 Ultra。

完整流程一览

第一次做的建议

先走 API 路线。OpenRouter 或 NIM。确认模型质量满足需求。

不要拿 Ultra 做简单任务。它是大锤。用来砸钉子太浪费。留给真正复杂的编码、Agent 链路、长 context 分析。

如果你之前用 DeepSeek V4 Flash，切到 Ultra 最直观的感受是：复杂任务的成功率明显提高。但简单任务的区别不大。

容易踩的坑

坑 1：以为开源就能本地跑开源 ≠ 能在你电脑上跑。550B 模型需要至少 160GB 显存。99% 的人只能走 API。

坑 2：混淆 Nemotron 3 Nano / Super / Ultra三个是不同模型。Nano（30B-A3B）能本地跑。Super（120B-A12B）需要 DGX Spark。Ultra（550B-A55B）需要 A100 集群。

坑 3：context 设太大导致延迟爆炸Ultra 支持很长的 context。但 128K 输入可能首 token 等 20-60 秒。日常用 32K。

坑 4：忽略了 Smart Routing 的重要性Ultra 不便宜（虽然比 Claude 便宜很多）。用 /model 在会话中灵活切换，才是正确用法。

收尾

NVIDIA 用 Nemotron 3 Ultra 证明了一件事：

美国公司也能做开源前沿模型。550B 参数。10% 激活率。推理快、成本低。

它不是用来跑在你笔记本上的。它是用来让你通过 API 获得接近 GPT-5.5 级别的能力，但只花零头的钱。

本地 Agent 用 Nano/Super。云端重任务用 Ultra。这是 NVIDIA 给出的完整方案。

从显卡到模型到 Agent 框架。从本地到云端。一家公司。全栈布局。

原文链接：https://mp.weixin.qq.com/s/ywnCDCv2xktPX3PjetkiUw