正文

安装 Gemma 4,先不要从 31B 开始。

本地模型安装最容易踩的坑,不是命令写错,而是把三个问题混在一起:你要跑哪个尺寸、用哪个运行框架、机器内存够不够。先用最小路径跑通,再往上换模型。不要当英雄。

先选一条安装路径

如果只是想在电脑上把 Gemma 4 跑起来,优先用 Ollama。它会处理模型下载、量化格式和本地服务,适合先验证机器能不能跑。

先用 Ollama 跑通,不代表最后必须用 Ollama。它只是最短的 sanity check。

本机先跑一句话Ollama
用桌面聊天界面试模型LM Studio
写 Python 应用Hugging Face Transformers
做边缘或移动端部署LiteRT-LM / llama.cpp / MLX
上生产服务Vertex AI / GKE / Cloud Run / vLLM

先按硬件选择模型尺寸

Google 官方文档把 Gemma 4 分成 E2B、E4B、12B、26B A4B 和 31B。数字越大,通常能力越强,但内存、下载体积和响应延迟也会上去。走 Ollama 路径时,先按 Ollama 当前提供的 Gemma 4 标签选择;走 Hugging Face 或其它框架时,再看对应平台是否提供 12B 等其它变体。

官方内存表也给了同一个信号:E2B、E4B 的低精度版本明显更适合本地先跑通;26B A4B 和 31B 即使量化后也要认真看显存、内存和上下文长度。

`gemma4:e2b`手机、轻量设备、低配电脑
`gemma4:e4b`普通笔记本、轻量本地助手
Gemma 4 12B高配笔记本、台式机、小服务器
`gemma4:26b`台式机、小服务器、需要更强推理
`gemma4:31b`高端工作站或服务器

用 Ollama 跑通 Gemma 4

先从 Ollama 官网 下载安装包。Windows 直接运行 .exe,macOS 解压后放进 Applications,Linux 按官网脚本安装。

安装后打开一个新的终端窗口,先确认命令在路径里。

如果能看到版本号,再拉取一个 Gemma 4 变体。普通笔记本建议先从 e4b 开始;机器比较弱就换成 e2b

确认模型已经在本机。

跑一次最小对话。

如果你只是想确认安装链路,看到模型能返回文本就够了。不要一开始就测长上下文、图片、音频和工具调用。先让最短路径工作。

PowerShell
ollama --version
PowerShell
ollama pull gemma4:e4b
PowerShell
ollama list
PowerShell
ollama run gemma4:e4b "用三句话解释 Gemma 4 适合什么场景"

换模型尺寸时只换标签

Ollama 的 Gemma 4 标签可以这样切换:

拉完之后,用同一个 run 命令验证。

如果 26b31b 卡住、加载很慢、系统开始换页,先退回 e4b。模型能在你的机器上稳定跑,比参数量更重要。

PowerShell
ollama pull gemma4:e2b
PowerShell
ollama pull gemma4:e4b
PowerShell
ollama pull gemma4:26b
PowerShell
ollama pull gemma4:31b
PowerShell
ollama run gemma4:26b "写一个 TypeScript debounce 函数,并解释边界情况"

用本地 HTTP 接口接入应用

Ollama 跑起来后,会暴露本地服务。你可以用 curl.exe 测一次生成接口。

成功时会返回一段 JSON,里面包含模型生成的文本。这个接口适合低流量、本地实验和脚本集成。

不要把这个本地接口直接当生产服务暴露到公网。它默认适合开发机,不是完整的生产推理平台。

PowerShell
curl.exe http://localhost:11434/api/generate -d '{"model":"gemma4:e4b","prompt":"用两句话解释什么是量化模型","stream":false}'

用 Hugging Face Transformers 跑 Gemma 4

如果你要在 Python 代码里控制推理、接入应用、处理多模态输入或后续微调,再走 Hugging Face Transformers 路径。

先建一个干净环境。

激活环境。

安装基础依赖。

用最小脚本加载 E2B 指令模型。第一次运行会下载权重,时间取决于网络和磁盘。

如果这里报 401、403 或 gated model 相关错误,先登录 Hugging Face,并确认账号已经能访问对应的 Google Gemma 模型页面。不要先改代码。

PowerShell
python -m venv .venv
PowerShell
.\.venv\Scripts\Activate.ps1
PowerShell
pip install torch "transformers>=5.10.1" accelerate
python
from transformers import pipeline

MODEL_ID = "google/gemma-4-E2B-it"

pipe = pipeline(
    task="any-to-any",
    model=MODEL_ID,
    device_map="auto",
    dtype="auto",
)

result = pipe(
    text="<|turn>user\n用三句话解释 Gemma 4 适合什么场景<turn|>\n<|turn>model\n",
    max_new_tokens=200,
)

print(result[0]["generated_text"])

Gemma 4 的 prompt 不要照抄 Gemma 3

Gemma 4 使用新的对话控制 token。最基础的文本对话结构是:

多模态输入还会用到 <|image|><|audio|> 这类占位 token。图片、音频和工具调用不是“装好模型就自动全能”,还要看你用的运行框架是否支持对应输入。

如果你在 Ollama 里只是做文本对话,先让自然语言 prompt 跑通。如果你在 Transformers 里做多轮、系统提示或多模态输入,再按 Gemma 4 prompt formatting 文档组织消息。

Text
<|turn>system
You are a helpful assistant.<turn|>
<|turn>user
Hello.<turn|>
<|turn>model

安装失败先查这几类问题

ollama 不是可识别命令:重新打开终端;Windows 检查 Ollama 是否加入 PATH;必要时重新安装。

ollama pull 下载很慢:先确认网络能访问 Ollama 模型源;公司网络下检查代理;不要在下载未完成时反复删除重拉。

模型加载后电脑很卡:换 gemma4:e2bgemma4:e4b;关闭其它占内存进程;不要直接测 26B 或 31B。

Python 加载模型时报 401 / 403:先处理 Hugging Face 登录和模型访问权限;不要把它当成 transformers 代码错误。

Python 报显存不足:换更小模型、降低上下文长度、使用量化路径,或者回到 Ollama / llama.cpp 这类更轻的本地运行方式。

返回内容很慢:先判断是第一次下载、首次加载、CPU 推理慢,还是模型本身太大。安装成功不等于响应速度已经适合日常使用。

验证安装真的可用

安装结束后,至少做四个检查:

如果这四项过了,再继续测图片、音频、长上下文、函数调用或应用集成。AI 模型的平均演示很容易过,尾部行为才是安装是否可靠的关键。

版本检查`ollama --version` 或 Python 依赖能正常输出
模型检查`ollama list` 能看到目标 Gemma 4 标签
最小生成一句短 prompt 能稳定返回文本
资源观察生成时内存、显存和 CPU 没有把系统拖死

什么时候不要本地安装

本地安装适合学习、试验、离线原型和低流量脚本。下面这些场景不要硬扛:

这些场景更适合上云部署或托管推理服务。本地跑通只是第一步,不是部署架构。

  • 需要多人共享同一个模型服务。
  • 需要稳定 SLA、日志、鉴权、监控和扩缩容。
  • 需要长上下文、高并发或大模型稳定吞吐。
  • 需要处理真实用户数据,并且要有合规审计。

参考来源

  • Google AI for Developers:Gemma models overview
  • Google AI for Developers:Get started with Gemma models
  • Google AI for Developers:Gemma 4 model overview
  • Google AI for Developers:Run Gemma with Ollama
  • Google AI for Developers:Run Gemma with Hugging Face Transformers
  • Google AI for Developers:Gemma 4 Prompt Formatting

参考来源

Gemma models overviewGoogle AI for DevelopersGet started with Gemma modelsGoogle AI for DevelopersGemma 4 model overviewGoogle AI for DevelopersRun Gemma with OllamaGoogle AI for DevelopersRun Gemma with Hugging Face TransformersGoogle AI for DevelopersGemma 4 Prompt FormattingGoogle AI for Developers

相关文章

Claude、GPT、Gemini 怎么选:AI Coding 任务分配和验证清单智能编程 / 约 12 分钟AI Terminal 会改变什么:为什么终端正在变成 Agent 工作台智能编程 / 约 10 分钟7 个关键洞察:AI Coding 工具真正改变的不是写代码,而是验证代码智能编程 / 约 18 分钟Vibe Coding 到底适合什么项目,不适合什么项目:7个关键判断,帮你少踩坑智能编程 / 约 16 分钟Codex CLI 实用配置指南:先把这 6 件事配好,再开始让它写代码智能编程 / 约 18 分钟