OpenAI GPT-OSS 开源模型系列深度解读:120B 与 20B 两款模型的架构、性能与行业影响

2025年8月5日,OpenAI 正式发布了 gpt-oss(GPT Open Source Series)开源权重语言模型系列,这是自 2019 年 GPT-2 以来,OpenAI 首次向公众开放语言模型权重。这一举措标志着 OpenAI 在开源战略上的重大转向,也引发了人工智能行业的广泛关注。本文将深度剖析该系列的两款模型——gpt-oss-120bgpt-oss-20b,从架构设计、技术参数、性能表现、开源生态和行业影响等维度进行全面解读。

一、背景:OpenAI 的开源之路

回顾 OpenAI 的历史,这家公司曾以开放为名。2019 年,OpenAI 开源了 GPT-2 模型,但此后随着 GPT-3、GPT-4、o1、o3 等一系列闭源模型的发布,OpenAI 逐渐转向了 API-only 的商业模式。与之形成鲜明对比的是,Meta 的 LLaMA 系列、Mistral AI 的系列模型、中国的 DeepSeek 和通义千问等开源模型在社区中蓬勃发展,形成了强大的开源生态。

进入 2025 年,开源大模型的性能已经逼近甚至在某些领域超越了闭源模型。DeepSeek-V3 以 671B 总参数的 MoE 架构震惊业界,LLaMA 3.1 405B 展现了密集模型的上限。在这样的竞争压力下,OpenAI 的开源转向既是战略选择,也是市场必然。

gpt-oss 系列包含两款模型:gpt-oss-120b(117B 总参数)和 gpt-oss-20b(21B 总参数)。两者均采用 MoE(混合专家)Transformer 架构,并使用 Apache 2.0 许可协议发布,这意味着它们可以自由用于商业用途、修改和再分发。

二、模型架构详解

2.1 整体架构设计

两款 gpt-oss 模型共享相同的架构 DNA,均基于 MoE Transformer 架构。MoE 的核心思想是:将模型划分为多个专家子网络,每个输入 token 只激活其中一部分专家,实现总参数大、激活参数小的高效推理。核心组件包括:注意力机制(交替密集注意力和局部带状稀疏注意力,滑动窗口 128)、分组查询注意力 GQA(分组大小 8)、旋转位置编码 RoPE(支持 YaRN 扩展到 128K 上下文)、SwiGLU 激活函数(带数值裁剪)、RMSNorm 归一化、MXFP4 4-bit 量化(MoE 权重)+ BF16 激活精度,以及 Sink Attention 稳定长序列推理。

2.2 两款模型参数对比

指标gpt-oss-120bgpt-oss-20b
总参数量117B21B
每 token 激活参数量5.1B3.6B
Transformer 层数36 层24 层
总专家数128 个32 个
每 token 激活专家数4 个4 个
词表大小201,088201,088
最大上下文长度128K tokens128K tokens
单卡推理显存80GB (H100)16GB
推理精度MXFP4 + BF16MXFP4 + BF16

gpt-oss-120b 虽然总参数量高达 117B,但由于 MoE 的稀疏激活特性,每次推理仅激活 5.1B 参数(约 4.4%),可在单张 H100 GPU 上运行。gpt-oss-20b 仅需 16GB 显存,消费级 GPU 即可部署。

2.3 MoE 路由机制

gpt-oss 使用 Top-K 门控机制(K=4),每个 token 经过门控网络计算所有专家得分,选择最高的 4 个进行前向传播。120b 模型的 128 个专家相当于 128 个不同的知识领域,这种细粒度分配使模型在总参数量巨大的情况下保持高效推理。

三、性能评测与基准测试

3.1 性能定位

根据 OpenAI 官方评测:gpt-oss-120b 核心推理基准接近 o4-mini 水平;gpt-oss-20b 常见基准与 o3-mini 相当。两款模型均具备链式推理、工具调用、结构化输出、全参数微调和安全对齐等能力。在 HealthBench 安全评测上甚至超越了 o1 和 GPT-4o。

基准测试评测内容表现
AIME 2025数学推理前沿水平
GPQA Diamond科学问答接近闭源推理模型
Tau-BenchAgent 工具使用超越同类开源模型
HealthBench医疗与安全超越 o1、GPT-4o
SWE-bench软件工程表现优秀

四、开源生态与工具链

4.1 开源范围

OpenAI 不仅开源了模型权重,还发布了完整配套工具链:openai/gpt-oss 主仓库(推理实现、工具调用客户端、评估套件,已获 20,000+ 星标)、openai/harmony(Harmony 聊天格式渲染器,Rust 实现)、openai/gpt-oss-safeguard(安全防护工具集)。

4.2 推理框架支持

gpt-oss 获得主流推理框架广泛支持:Hugging Face Transformers、vLLM、Ollama、LM Studio、Apple Metal、PyTorch/Triton 参考实现,以及 AWS 官方集成。

4.3 许可协议

Apache 2.0 许可允许商业使用、修改和再分发,包含明确的专利授权条款,是企业级部署的首选许可。其商业友好度远超 LLaMA 的 Llama 3 Community License 和 Mistral 的 Research License。

五、部署与使用实践

硬件需求:120b 模型需单张 H100(80GB)或 MI300X;20b 模型仅需 16GB 显存(RTX 4090/4080、Mac 等均可)。可通过 Hugging Face Transformers 或 Ollama 一键部署。需注意 gpt-oss 使用 Harmony 聊天格式而非 ChatML。

六、与其他开源模型对比

模型总参数量激活参数上下文许可协议
gpt-oss-120b117B5.1B128KApache 2.0
gpt-oss-20b21B3.6B128KApache 2.0
DeepSeek-V3671B37B128KMIT
LLaMA 3.1 405B405B405B128KLlama 3 Community
Qwen 2.5 72B72B72B128KApache 2.0

gpt-oss 的激活参数远低于密集模型,可支持更高并发。Apache 2.0 许可商业友好度最高。

七、行业影响与未来展望

7.1 开源格局的重塑

gpt-oss 的发布标志着 OpenAI 从封闭走向开放的战略转折,是 2025 年 AI 领域最具标志性的事件之一。它迫使所有开源和闭源参与者不断提升能力,推动了整个 AI 生态的技术进步。推理能力上的突破使开源模型首次在复杂推理任务上与闭源模型正面竞争。

7.2 对企业用户的价值

数据隐私保护、成本控制、完全定制和法律合规是企业用户的核心收益。特别是金融、医疗、法律等对数据隐私要求极高的行业,20b 模型的低门槛部署使本地化高性能推理成为现实。

7.3 对开发者与研究者

科研可复现性、Agent 开发基座、微调实验平台和模型蒸馏等方向均受益于 gpt-oss 的开源。原生工具调用和结构化输出使其成为构建 AI Agent 的理想选择。

7.4 局限与挑战

Harmony 格式增加迁移成本;中文能力弱于原生中文优化的模型(如 Qwen、DeepSeek);MoE 推理优化依赖社区生态;中文社区生态仍在成长中。

八、总结

OpenAI gpt-oss 系列的开源发布是 AI 史上的里程碑事件。gpt-oss-120b 以 117B 总参数、仅 5.1B 激活参数实现了接近 o4-mini 的推理能力;gpt-oss-20b 以 21B 参数、16GB 显存门槛将前沿推理能力带到开发者桌面。Apache 2.0 许可扫清了商业应用障碍。我们正在见证一个更加开放、更加多元的 AI 未来。

(全文完)

Qwen3.6越狱版火了

Qwen3.6越狱版火了

AI芯片神经网络示意图
图源:AI生成示意

2026年5月下旬,一款名为 Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive 的模型在开源社区迅速走红,被称为"越狱版"Qwen3.6。

这个版本移除了官方模型的内容审查限制,同时保留了完整的推理和代码能力。对于本地部署玩家来说,这意味着真正的"模型自由"。

核心数据对比

模型 参数量 激活参数 显存门槛 开源/收费 特点
Qwen3.6-35B-A3B Uncensored 35B 3B 6G 开源 无审查、支持视觉
Qwen3.6 官方版 35B 3B 6G 开源 有内容审核
GPT-5.5(闭源参考) 未公开 未公开 API only 收费 原生Agent能力
Llama 4 Ultra 约400B 约50B 24G+ 开源 多模态强化

MoE架构:35B参数,6G显存可跑

这个模型的核心优势是 MoE(混合专家)架构

总参数35B,但每次推理只激活约3B参数。计算量大幅降低,显存占用约等于一个7B模型。

实测RTX 4060 Laptop(8G显存)跑IQ2_M量化版本,输出速度约10 tokens/s。用llama.cpp原生引擎,配--jinja参数,中文输出稳定。

无审查的意义

"越狱"在这里指移除模型的安全对齐限制。

官方版遇到某些提示词会拒绝回答。这个版本直接输出,不做内容审核。适合本地研究、安全测试、以及需要模型"说实话"的场景。

值得强调的是,这个版本的能力没有打折。实测代码生成、多模态识图、长文本推理都保持高水准。

视觉能力

模型支持多模态,需要额外下载mmproj文件。启动llama-server时挂载该文件,即可支持图片分析、OCR、截图问答。

如何使用

  1. 下载llama.cpp(根据显卡选CUDA版本)
  2. 下载对应量化版本的GGUF模型文件
  3. 双击run.bat,浏览器打开http://127.0.0.1:8080
  4. 支持OpenAI API格式,可接入OpenWebUI、Cherry Studio等工具

显存对照:6-8G用IQ2_M,12-16G用IQ4_NL(推荐),24G以上用Q4_K_P。

模型链接

  • HuggingFace:https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive[1]
  • GitHub Qwen3.6官方:https://github.com/QwenLM/Qwen3.6[2]
  • llama.cpp项目:https://github.com/ggerganov/llama.cpp[3]

本文涉及模型仅用于本地研究和安全测试,请勿用于非法用途。

550 亿参数只激活 55 亿:NVIDIA 刚发布的美国最强开源模型,怎么免费用


NVIDIA 在 Computex 2026 上放了一颗炸弹。

550B 总参数。MoE 架构。每次推理只激活 55B。开源权重。

Artificial Analysis 排行榜:美国开源模型第一名。得分 48 分。遥遥领先第二名 Gemma 4 31B(39 分)。

这不是一个能在你笔记本上跑的模型。但它可以免费用。

这个模型是什么

Nemotron 3 Ultra。NVIDIA 在 2026 年 6 月 1 日 Computex 台北发布。

550B 总参数。约 55B 激活参数(~10% 激活率)。MoE + Mamba-Transformer 混合架构。

定位:前沿级开源模型。对标 GPT-5.5、Claude Opus 4.6、Kimi K2。

开源权重。可自行部署。也可通过 API 使用。

为什么值得关注

因为它是美国第一个真正威胁中国开源模型的前沿级开源产品

之前的格局:

  • 前沿闭源:OpenAI、Anthropic、Google
  • 前沿开源:几乎被 DeepSeek、Qwen、Kimi 统治

现在 NVIDIA 入场了。550B。开放权重。不是「能用」级别。是「前沿」级别。

Artificial Analysis 智力排名对比:

模型
得分
来源
Nemotron 3 Ultra
48
NVIDIA(美国)
GLM 5.1
49+
智谱(中国)
Kimi K2.6
~50
月之暗面(中国)
Gemma 4 31B
39
Google(美国)
Nemotron 3 Super
36
NVIDIA(美国)

Ultra 还没超过中国的顶尖模型。但差距很小了。而且它 10% 的激活率意味着推理成本极低。

想了想,NVIDIA 不只是在做模型。它在证明一件事:美国的开源力量不只有 Meta。

它能做什么

几个核心能力:

  • Agent 工作流:NVIDIA 专门为 Agent 场景优化
  • 编码:SWE-bench 级别的代码能力
  • 长 context 推理:支持超长输入
  • 指令跟随:精准执行复杂多步指令
  • 知识工作:研究、分析、报告生成

社区反馈称某些配置下推理速度可达 300+ tok/s。对一个 550B 模型来说,这个速度惊人。得益于 MoE 的 10% 激活率。

谁能跑这个模型

老实说,大多数人跑不动。

本地部署最低要求:

  • 2× A100 80GB(FP8)→ 够跑
  • 4× DGX Spark(128GB 统一内存×4 = 512GB)→ 够跑
  • 1× H100 80GB → 激进量化下可能行

消费级显卡?不行。550B 即使量化到 4bit 也需要 ~140GB。

但你不需要本地跑。

先看完成后的样子


Hermes Agent 接入 Nemotron 3 Ultra API。发一条消息。收到前沿级模型的回复。

cost?接近 $0。OpenRouter 或 NVIDIA NIM 都有免费/极低价的访问通道。

前提条件

  • 已安装 Hermes Agent
  • 有终端环境
  • OpenRouter 账户 或 NVIDIA NIM API Key

阶段一:通过 OpenRouter 接入

第一步:获取 API Key

访问 openrouter.ai[1]。登录。创建 API Key。

第二步:配置 Hermes

hermes model
# 选 OpenRouter
# 粘贴 API Key
# 模型选:nvidia/nemotron-3-ultra

或编辑 ~/.hermes/config.yaml

model:
  provider: openrouter
  default: nvidia/nemotron-3-ultra

第三步:验证

hermes
> 用 Rust 写一个高性能的 JSON parser,支持流式解析

验证:回复质量高,代码完整,有注释。

阶段二:通过 NVIDIA NIM 接入

NVIDIA 自己的推理平台。可能有免费额度。

第四步:注册 NVIDIA NIM

访问 build.nvidia.com[2]。注册开发者账户。获取 API Key。

第五步:配置 Hermes

model:
  provider: custom
  default: nemotron-3-ultra
  api_base: https://integrate.api.nvidia.com/v1
  context_length: 131072

在 ~/.hermes/.env 中添加:

NVIDIA_API_KEY=nvapi-你的key

验证:正常回复。检查 NIM 控制台确认 token 用量。

阶段三:本地部署(高端硬件)

如果你有 2× A100 80GB 或多台 DGX Spark:

第六步:下载权重

huggingface-cli download nvidia/Nemotron-3-Ultra-550B-A55B \
  --local-dir ~/models/nemotron-ultra

第七步:用 vLLM 或 TensorRT-LLM 部署

python -m vllm.entrypoints.openai.api_server \
  --model ~/models/nemotron-ultra \
  --tensor-parallel-size 2 \
  --max-model-len 131072 \
  --quantization fp8 \
  --port 8000

第八步:Hermes 指向本地

model:
  provider: custom
  default: nemotron-ultra
  api_base: http://localhost:8000/v1
  context_length: 131072

本地部署的好处:无速率限制、无数据出境、无 per-token 费用。代价是硬件投入。

阶段四:Smart Routing 策略

最佳实践不是全用 Ultra。是按任务分配。

# 日常简单任务 → 免费小模型
# hermes 会话中用 /model 切换

# 简单对话、摘要 → DeepSeek V4 Flash :free
# 复杂编码、Agent → Nemotron 3 Ultra(付费但便宜)
# 本地隐私任务 → Qwen3.6-35B-A3B(本地)

这样大部分时间花 $0。只有真正需要前沿能力的任务才调用 Ultra。

完整流程一览


第一次做的建议

先走 API 路线。OpenRouter 或 NIM。确认模型质量满足需求。

不要拿 Ultra 做简单任务。它是大锤。用来砸钉子太浪费。留给真正复杂的编码、Agent 链路、长 context 分析。

如果你之前用 DeepSeek V4 Flash,切到 Ultra 最直观的感受是:复杂任务的成功率明显提高。但简单任务的区别不大。

容易踩的坑

坑 1:以为开源就能本地跑开源 ≠ 能在你电脑上跑。550B 模型需要至少 160GB 显存。99% 的人只能走 API。

坑 2:混淆 Nemotron 3 Nano / Super / Ultra三个是不同模型。Nano(30B-A3B)能本地跑。Super(120B-A12B)需要 DGX Spark。Ultra(550B-A55B)需要 A100 集群。

坑 3:context 设太大导致延迟爆炸Ultra 支持很长的 context。但 128K 输入可能首 token 等 20-60 秒。日常用 32K。

坑 4:忽略了 Smart Routing 的重要性Ultra 不便宜(虽然比 Claude 便宜很多)。用 /model 在会话中灵活切换,才是正确用法。

收尾

NVIDIA 用 Nemotron 3 Ultra 证明了一件事:

美国公司也能做开源前沿模型。550B 参数。10% 激活率。推理快、成本低。

它不是用来跑在你笔记本上的。它是用来让你通过 API 获得接近 GPT-5.5 级别的能力,但只花零头的钱。

本地 Agent 用 Nano/Super。云端重任务用 Ultra。这是 NVIDIA 给出的完整方案。

从显卡到模型到 Agent 框架。从本地到云端。一家公司。全栈布局。


原文链接:https://mp.weixin.qq.com/s/ywnCDCv2xktPX3PjetkiUw