Gemma 4 12B 来了，Google 终于补上本地多模态这块拼图

Gemma 4 12B

Google 昨天又扔了个东西出来——Gemma 4 12B。

说实话，之前 Gemma 4 刚出那四个版本（E2B、E4B、26B-A4B、31B）的时候，我就觉得少了点什么。120 亿参数这个档位一直是本地部署的甜点区，Google 愣是没放。现在它来了。

这个 12B 不一样

一般我们说"12B 模型"，就是 120 亿参数的常规 Transformer。但 Gemma 4 12B 有个特殊的标签——"Unified"（统一架构）。

啥意思呢？传统多模态模型比如 GPT-4V、Gemini，处理图片的时候要先过一道视觉编码器（ViT 之类的），把像素变成 token，再喂给语言模型。音频也一样，要另外接 ASR。这导致模型体积膨胀，部署成本高。

Gemma 4 12B 直接把编码器砍了。原始像素和音频波形直接映射到语言模型的嵌入空间，用轻量级嵌入模块替代。少跑十几个 Transformer 层，快不少。

官方说 16GB VRAM 就够了。RTX 4090 随便跑，MacBook Pro 的 M 系列统一内存也能上。我估计 M2 Max 以上体验会不错，M1 的话可能慢点但也能跑。

这玩意儿支持文本、图片、原生音频输入，不用外挂语音识别模型。本地跑一个模型解决三个模态，以前这都是 Gemini Pro 级别才干的事。

现在 Gemma 4 全家桶长这样：

注意这个 12B 是 Dense（密集）架构，不是 MoE。好处是推理更稳定，不会出现某些 MoE 模型那种"某些专家没激活导致回答奇怪"的情况。

基准测试数据不多，但 Gemma 4 系列整体在 Arena AI 开源排行榜排前三，AIME 2026 数学竞赛 89.2%、LiveCodeBench 80.0%。12B 版本在同类参数的模型里属于第一梯队。

不过说真的，本地跑模型最重要的不是跑分，是你能不能真的用起来。12B 这个大小刚好——再小（7B）能力不够，再大（31B）本地跑不动。

Ollama 用户一行命令：

ollama run gemma4:12b

HuggingFace 也有：google/gemma-4-12b-it，LM Studio 搜一下也能装。硬盘留 24GB 空间就行。

Apache 2.0 协议，商用随便。

如果你手头有 16GB 显存的卡或者 M 系列 Mac，值得一试。一个模型搞定多模态，不用拼积木一样接一堆小模型，省心很多。

如果你是纯文本用户，Gemma 3 12B 其实也够用，没必要非追新。但如果你想在本地搞智能体、多模态，这个是目前最省事的方案。

Gemma 4 12B 架构特点