
Google 昨天又扔了个东西出来——Gemma 4 12B。
说实话,之前 Gemma 4 刚出那四个版本(E2B、E4B、26B-A4B、31B)的时候,我就觉得少了点什么。120 亿参数这个档位一直是本地部署的甜点区,Google 愣是没放。现在它来了。
这个 12B 不一样
一般我们说"12B 模型",就是 120 亿参数的常规 Transformer。但 Gemma 4 12B 有个特殊的标签——"Unified"(统一架构)。
啥意思呢?传统多模态模型比如 GPT-4V、Gemini,处理图片的时候要先过一道视觉编码器(ViT 之类的),把像素变成 token,再喂给语言模型。音频也一样,要另外接 ASR。这导致模型体积膨胀,部署成本高。
Gemma 4 12B 直接把编码器砍了。原始像素和音频波形直接映射到语言模型的嵌入空间,用轻量级嵌入模块替代。少跑十几个 Transformer 层,快不少。
跑起来门槛不高
官方说 16GB VRAM 就够了。RTX 4090 随便跑,MacBook Pro 的 M 系列统一内存也能上。我估计 M2 Max 以上体验会不错,M1 的话可能慢点但也能跑。
这玩意儿支持文本、图片、原生音频输入,不用外挂语音识别模型。本地跑一个模型解决三个模态,以前这都是 Gemini Pro 级别才干的事。
跟其他版本比怎样
现在 Gemma 4 全家桶长这样:
- E2B(51亿参数,激活23亿):手机端,MoE
- E4B(80亿参数,激活45亿):边缘设备,MoE
- 12B(全新)(120亿):笔记本本地多模态,Dense Unified 架构
- 26B-A4B(260亿参数,激活40亿):工作站,MoE 128专家
- Dense 31B(310亿):服务器满血版
注意这个 12B 是 Dense(密集)架构,不是 MoE。好处是推理更稳定,不会出现某些 MoE 模型那种"某些专家没激活导致回答奇怪"的情况。
性能凑合,够用
基准测试数据不多,但 Gemma 4 系列整体在 Arena AI 开源排行榜排前三,AIME 2026 数学竞赛 89.2%、LiveCodeBench 80.0%。12B 版本在同类参数的模型里属于第一梯队。
不过说真的,本地跑模型最重要的不是跑分,是你能不能真的用起来。12B 这个大小刚好——再小(7B)能力不够,再大(31B)本地跑不动。
怎么装
Ollama 用户一行命令:
ollama run gemma4:12b
HuggingFace 也有:google/gemma-4-12b-it,LM Studio 搜一下也能装。硬盘留 24GB 空间就行。
Apache 2.0 协议,商用随便。
值不值得折腾
如果你手头有 16GB 显存的卡或者 M 系列 Mac,值得一试。一个模型搞定多模态,不用拼积木一样接一堆小模型,省心很多。
如果你是纯文本用户,Gemma 3 12B 其实也够用,没必要非追新。但如果你想在本地搞智能体、多模态,这个是目前最省事的方案。
