550 亿参数只激活 55 亿:NVIDIA 刚发布的美国最强开源模型,怎么免费用


NVIDIA 在 Computex 2026 上放了一颗炸弹。

550B 总参数。MoE 架构。每次推理只激活 55B。开源权重。

Artificial Analysis 排行榜:美国开源模型第一名。得分 48 分。遥遥领先第二名 Gemma 4 31B(39 分)。

这不是一个能在你笔记本上跑的模型。但它可以免费用。

这个模型是什么

Nemotron 3 Ultra。NVIDIA 在 2026 年 6 月 1 日 Computex 台北发布。

550B 总参数。约 55B 激活参数(~10% 激活率)。MoE + Mamba-Transformer 混合架构。

定位:前沿级开源模型。对标 GPT-5.5、Claude Opus 4.6、Kimi K2。

开源权重。可自行部署。也可通过 API 使用。

为什么值得关注

因为它是美国第一个真正威胁中国开源模型的前沿级开源产品

之前的格局:

  • 前沿闭源:OpenAI、Anthropic、Google
  • 前沿开源:几乎被 DeepSeek、Qwen、Kimi 统治

现在 NVIDIA 入场了。550B。开放权重。不是「能用」级别。是「前沿」级别。

Artificial Analysis 智力排名对比:

模型
得分
来源
Nemotron 3 Ultra
48
NVIDIA(美国)
GLM 5.1
49+
智谱(中国)
Kimi K2.6
~50
月之暗面(中国)
Gemma 4 31B
39
Google(美国)
Nemotron 3 Super
36
NVIDIA(美国)

Ultra 还没超过中国的顶尖模型。但差距很小了。而且它 10% 的激活率意味着推理成本极低。

想了想,NVIDIA 不只是在做模型。它在证明一件事:美国的开源力量不只有 Meta。

它能做什么

几个核心能力:

  • Agent 工作流:NVIDIA 专门为 Agent 场景优化
  • 编码:SWE-bench 级别的代码能力
  • 长 context 推理:支持超长输入
  • 指令跟随:精准执行复杂多步指令
  • 知识工作:研究、分析、报告生成

社区反馈称某些配置下推理速度可达 300+ tok/s。对一个 550B 模型来说,这个速度惊人。得益于 MoE 的 10% 激活率。

谁能跑这个模型

老实说,大多数人跑不动。

本地部署最低要求:

  • 2× A100 80GB(FP8)→ 够跑
  • 4× DGX Spark(128GB 统一内存×4 = 512GB)→ 够跑
  • 1× H100 80GB → 激进量化下可能行

消费级显卡?不行。550B 即使量化到 4bit 也需要 ~140GB。

但你不需要本地跑。

先看完成后的样子


Hermes Agent 接入 Nemotron 3 Ultra API。发一条消息。收到前沿级模型的回复。

cost?接近 $0。OpenRouter 或 NVIDIA NIM 都有免费/极低价的访问通道。

前提条件

  • 已安装 Hermes Agent
  • 有终端环境
  • OpenRouter 账户 或 NVIDIA NIM API Key

阶段一:通过 OpenRouter 接入

第一步:获取 API Key

访问 openrouter.ai[1]。登录。创建 API Key。

第二步:配置 Hermes

hermes model
# 选 OpenRouter
# 粘贴 API Key
# 模型选:nvidia/nemotron-3-ultra

或编辑 ~/.hermes/config.yaml

model:
  provider: openrouter
  default: nvidia/nemotron-3-ultra

第三步:验证

hermes
> 用 Rust 写一个高性能的 JSON parser,支持流式解析

验证:回复质量高,代码完整,有注释。

阶段二:通过 NVIDIA NIM 接入

NVIDIA 自己的推理平台。可能有免费额度。

第四步:注册 NVIDIA NIM

访问 build.nvidia.com[2]。注册开发者账户。获取 API Key。

第五步:配置 Hermes

model:
  provider: custom
  default: nemotron-3-ultra
  api_base: https://integrate.api.nvidia.com/v1
  context_length: 131072

在 ~/.hermes/.env 中添加:

NVIDIA_API_KEY=nvapi-你的key

验证:正常回复。检查 NIM 控制台确认 token 用量。

阶段三:本地部署(高端硬件)

如果你有 2× A100 80GB 或多台 DGX Spark:

第六步:下载权重

huggingface-cli download nvidia/Nemotron-3-Ultra-550B-A55B \
  --local-dir ~/models/nemotron-ultra

第七步:用 vLLM 或 TensorRT-LLM 部署

python -m vllm.entrypoints.openai.api_server \
  --model ~/models/nemotron-ultra \
  --tensor-parallel-size 2 \
  --max-model-len 131072 \
  --quantization fp8 \
  --port 8000

第八步:Hermes 指向本地

model:
  provider: custom
  default: nemotron-ultra
  api_base: http://localhost:8000/v1
  context_length: 131072

本地部署的好处:无速率限制、无数据出境、无 per-token 费用。代价是硬件投入。

阶段四:Smart Routing 策略

最佳实践不是全用 Ultra。是按任务分配。

# 日常简单任务 → 免费小模型
# hermes 会话中用 /model 切换

# 简单对话、摘要 → DeepSeek V4 Flash :free
# 复杂编码、Agent → Nemotron 3 Ultra(付费但便宜)
# 本地隐私任务 → Qwen3.6-35B-A3B(本地)

这样大部分时间花 $0。只有真正需要前沿能力的任务才调用 Ultra。

完整流程一览


第一次做的建议

先走 API 路线。OpenRouter 或 NIM。确认模型质量满足需求。

不要拿 Ultra 做简单任务。它是大锤。用来砸钉子太浪费。留给真正复杂的编码、Agent 链路、长 context 分析。

如果你之前用 DeepSeek V4 Flash,切到 Ultra 最直观的感受是:复杂任务的成功率明显提高。但简单任务的区别不大。

容易踩的坑

坑 1:以为开源就能本地跑开源 ≠ 能在你电脑上跑。550B 模型需要至少 160GB 显存。99% 的人只能走 API。

坑 2:混淆 Nemotron 3 Nano / Super / Ultra三个是不同模型。Nano(30B-A3B)能本地跑。Super(120B-A12B)需要 DGX Spark。Ultra(550B-A55B)需要 A100 集群。

坑 3:context 设太大导致延迟爆炸Ultra 支持很长的 context。但 128K 输入可能首 token 等 20-60 秒。日常用 32K。

坑 4:忽略了 Smart Routing 的重要性Ultra 不便宜(虽然比 Claude 便宜很多)。用 /model 在会话中灵活切换,才是正确用法。

收尾

NVIDIA 用 Nemotron 3 Ultra 证明了一件事:

美国公司也能做开源前沿模型。550B 参数。10% 激活率。推理快、成本低。

它不是用来跑在你笔记本上的。它是用来让你通过 API 获得接近 GPT-5.5 级别的能力,但只花零头的钱。

本地 Agent 用 Nano/Super。云端重任务用 Ultra。这是 NVIDIA 给出的完整方案。

从显卡到模型到 Agent 框架。从本地到云端。一家公司。全栈布局。


原文链接:https://mp.weixin.qq.com/s/ywnCDCv2xktPX3PjetkiUw

《判断权》:AI时代程序员的生存寓言——一部250章长篇小说的深度解读

2022年11月15日,OpenAI在API控制台上静默发布了text-davinci-003。同一天,上海张江高科软件园的一间写字楼里,一个32岁的程序员在午休时间打开Playground,看到了模型下拉菜单中排在最顶部的那个新编号。他没有输入任何prompt,看了几秒,关掉了页面。

这个场景,正是长篇小说《判断权》第22章「加速」的开篇。而这个名叫陈默的程序员,在接下来的250章里,将经历从2020年到2050年整整三十年的AI技术浪潮——从GPT-3到AGI,从Copilot到具身智能,从"写代码"到"人还剩下什么"。

一、什么是"判断权"?

"判断权"这三个字,在小说中有一个精确的递进定义:

  • 第一层:代码判断——选择什么技术、如何解决问题
  • 第二层:职业判断——在AI替代面前,是适应还是抗拒
  • 第三层:伦理判断——当AI可以做决策时,人类应该让渡多少权力
  • 第四层:终极判断——当AI超越人类,"人"还剩下什么

作者将这个概念称为"人之所以为人,在于判断"。这不是哲学命题的空洞讨论,而是通过一个普通程序员的视角,将这个命题嵌入到日常生活的一帧一帧里:深夜调试代码时的那一次犹豫、路过老张空工位时身体自动绕行的那条路线、在电梯镜面中看到自己侧脸时停顿的那一秒。

二、一部"反爽文"的技术小说

当前市场上关于AI的技术小说,大多走的是"逆袭"路线:主角穿越重生、提前布局、精准踩中每一个风口、最终站在时代之巅。《判断权》完全相反。陈默不是天才,不是先知,甚至不是那种"比别人更努力"的典型主角。他只是一个在张江高科写Java的普通程序员,有一个当语文老师的妻子,有一个叫小朵的女儿,有一个被裁后转行送外卖的老张同事。

小说的核心叙事方法,被创作者称为"感官现实主义"

  1. 只写人物能感知到的——不写上帝视角,不写内心旁白
  2. 技术细节精确到API版本号——text-davinci-003是2022年11月15日发布的,不是"某一天"
  3. 情感通过物理细节传递——不是"他感到恐惧",而是"手指在键盘上停了一秒,然后继续打字"
  4. 每个配角都有独立动机——老张不只是"35岁被裁的工具人",他有自己的声音、自己的选择

这种写法的代价是:节奏极慢。第22章写了2022年11月中旬的一天,从早上七点十分出地铁到深夜加班结束。但正是这种慢,让读者感受到时间的真实重量——因为AI的迭代速度,正是在这种日常的慢中,一点一点碾压过来的。

三、时间密度的U型设计

小说的时间线设计精妙。从2020年夏末到2050年,30年的跨度被分成五部曲,但章节数量的分布呈U型:

时间密度(章/月)
1.5 ┤  ██                              ███
1.0 ┤ █  █                            █   █
0.5 ┤█    ████████████                █     █
0.0 ┼────┼────┼────┼────┼────┼────┼────┼───→ 时间
  夏末  秋   冬   春   夏   秋   10月  11月
  2020            2021       2022
     └─密集─┘  └──稀疏──┘  └──密集──┘

开头密集(Ch01-05),快速建立焦虑基调;中间稀疏(Ch05-Ch15),焦虑潜伏蓄力;结尾密集(Ch19-22),判断权集中行使。读者在第20-22章感受到的时间压迫,不仅来自情节——AI迭代速度越来越快,更来自阅读节奏本身——章节密度越来越高。

这种"密度U型"是叙事的心跳。它让技术焦虑不再是一个概念,而是一种生理性的阅读体验。

四、老张:一面镜子

老张是陈默的镜像角色。1985年出生,2022年2月被裁时37岁。天台上,他对陈默说出那些碎片化的词语:"五年""三十五""这种桥"。小说不给老张完整的独白——他的话语是破碎的,像一个正在失去语言能力的人。

第12章「老张离职」后,他的工位空了。马克杯倒扣着,杯底的褐色渍印随时间一层层加深。便签纸翘起来,胶完全失去黏性。键盘上落了薄灰。这些物理细节,比任何"失业率数据"都更有力。

陈默路过那个空工位的动作变化,是全书最精准的情感刻度:

  • 最初:下意识侧肩,怕碰到什么
  • 三个月后:身体记住了路线,自动绕行
  • 九个月后:连侧都不侧

这不是冷漠,是人对失去的适应。但适应本身就是恐惧——它说明"失去"已经成为日常的一部分。

五、AI作为"日常化"的恐怖

《判断权》对AI的处理方式,在技术文学中独树一帜。小说中的AI不是从天而降的救世主或毁灭者,而是像暖气的干燥味道一样——你每天闻到它,习惯它,直到有一天你发现整个冬天都是靠它活着的。

陈默与AI的关系变化:

章节AI工具陈默的反应
Ch10-11text-davinci-002好奇、测试、新鲜感
Ch15text-davinci-002AI代码有bug,debug一整天
Ch17-18Copilot(观察)同事在用,开始意识到趋势
Ch19Copilot(review)发现6处AI编码风格指纹,开始系统化审查
Ch21text-davinci-003亲手确认质变——"003比002好太多"
Ch22003(只看不调用)打开API控制台,确认003还在,关掉——不再测试,开始想"下一个是什么"

从"测试"到"确认存在但不调用"——这个微妙的动作转变,标志着陈默从技术使用者变成了存在性思考者。他不再问"AI能做什么",而是问"AI的下一步意味着什么"。

六、五部曲的色彩密码

小说的五部曲用色彩编码,从暖到冷再到纯粹:

  • 第一部(2020-2023):暖黄+午夜蓝——家庭温暖与深夜代码的对比
  • 第二部(2024-2025.10):冷银+屏幕蓝——AI工具加速渗透
  • 第三部(2025.11-2026.3):铁锈红+深灰——OpenClaw冲突的紧张感
  • 第四部(2026-2035):雾霾灰+霓虹紫——混沌探索期
  • 第五部(2036-2050):黑白+琥珀金——终极判断的纯粹与庄严

这种色彩体系参考了《社交网络》的快速对话节奏、《她》(Her)的温暖孤独感、《黑镜》前三季的技术困境。但最核心的参照是《美国工厂》——真实工作场景的质感。张江高科的暖气味道、电梯金属壁面映出的侧脸、行道树枝干上最后一片叶子落下的过程——这些不是装饰,是叙事的骨骼。

七、对创作者的启示:AI写作的"去AI味"

《判断权》的创作过程本身就是一个值得研究的案例。小说由6个Agent组成的11-Flow异构管线创作:

🎬 Director    → 导演笔记、调研、发布
🎭 Screenwriter → 剧本结构、场景设计
📚 Lore Keeper  → 设定审核、六维审计
✍️ Writer       → 正文草稿
✨ Polisher     → 精修正文、风格审计
💬 Feedback     → 试读反馈、场景设计

其中最值得注意的是风格审计节点:Flow 5(精修)和 Flow 9(终审)承担风格与符号一致性审计。Flow 5 检查文字层面的AI味和风格漂移——比如"是……的"句式每出现一次扣一分;Flow 9 检查符号递归——如蓝色方块在Ch16→Ch20→Ch22的三维闭合。

这套系统的存在,恰恰说明了一个悖论:用AI来创作一部关于AI焦虑的小说,本身就需要一套精密的"去AI味"机制。创作者不能让技术工具的痕迹污染故事的真实感——读者必须忘记这是一部AI参与创作的作品,才能真正感受到陈默的焦虑。

八、留给时代的问题

小说的最终问题不是"AI会不会取代程序员"——这是一个已经过时的问题。真正的问题是:

当AI能做得更好时,人还剩下什么?

陈默给出的答案不是一个概念,而是一条轨迹——从执行者到提问者,从判断者到定义者。小说承诺"希望而非绝望"的终局,但这个希望不是廉价的乐观主义,而是通过250章、30年、无数个深夜和无数次空格键的敲击,一帧一帧建构出来的。

在2026年的今天,当我们已经被ChatGPT、Claude、Copilot、Cursor包围的时候,重读《判断权》的前22章,会发现一件事:小说中最令人不安的,不是AI变强了,而是我们已经习惯了

就像陈默路过老张空工位时,连侧都不侧了。


《判断权》是一部连载中的长篇小说,目前完成22章,规划250章。核心主题涵盖AI编程、35岁危机、技术焦虑与人的判断权。全文时间跨度从2020年至2050年,采用"感官现实主义"写法,技术细节精确到API版本号和发布日期。