Gemma 4 怎么安装：先用 Ollama 跑通，再决定要不要上 Python

正文

安装 Gemma 4，先不要从 31B 开始。

本地模型安装最容易踩的坑，不是命令写错，而是把三个问题混在一起：你要跑哪个尺寸、用哪个运行框架、机器内存够不够。先用最小路径跑通，再往上换模型。不要当英雄。

先选一条安装路径

如果只是想在电脑上把 Gemma 4 跑起来，优先用 Ollama。它会处理模型下载、量化格式和本地服务，适合先验证机器能不能跑。

先用 Ollama 跑通，不代表最后必须用 Ollama。它只是最短的 sanity check。

本机先跑一句话	`Ollama`
用桌面聊天界面试模型	`LM Studio`
写 Python 应用	`Hugging Face Transformers`
做边缘或移动端部署	`LiteRT-LM / llama.cpp / MLX`
上生产服务	`Vertex AI / GKE / Cloud Run / vLLM`

先按硬件选择模型尺寸

Google 官方文档把 Gemma 4 分成 E2B、E4B、12B、26B A4B 和 31B。数字越大，通常能力越强，但内存、下载体积和响应延迟也会上去。走 Ollama 路径时，先按 Ollama 当前提供的 Gemma 4 标签选择；走 Hugging Face 或其它框架时，再看对应平台是否提供 12B 等其它变体。

官方内存表也给了同一个信号：E2B、E4B 的低精度版本明显更适合本地先跑通；26B A4B 和 31B 即使量化后也要认真看显存、内存和上下文长度。

`gemma4:e2b`	`手机、轻量设备、低配电脑`
`gemma4:e4b`	`普通笔记本、轻量本地助手`
Gemma 4 12B	`高配笔记本、台式机、小服务器`
`gemma4:26b`	`台式机、小服务器、需要更强推理`
`gemma4:31b`	`高端工作站或服务器`

用 Ollama 跑通 Gemma 4

先从 Ollama 官网下载安装包。Windows 直接运行 .exe，macOS 解压后放进 Applications，Linux 按官网脚本安装。

安装后打开一个新的终端窗口，先确认命令在路径里。

如果能看到版本号，再拉取一个 Gemma 4 变体。普通笔记本建议先从 e4b 开始；机器比较弱就换成 e2b。

确认模型已经在本机。

跑一次最小对话。

如果你只是想确认安装链路，看到模型能返回文本就够了。不要一开始就测长上下文、图片、音频和工具调用。先让最短路径工作。

PowerShell

ollama --version

PowerShell

ollama pull gemma4:e4b

PowerShell

ollama list

PowerShell

ollama run gemma4:e4b "用三句话解释 Gemma 4 适合什么场景"

换模型尺寸时只换标签

Ollama 的 Gemma 4 标签可以这样切换：

拉完之后，用同一个 run 命令验证。

如果 26b 或 31b 卡住、加载很慢、系统开始换页，先退回 e4b。模型能在你的机器上稳定跑，比参数量更重要。

PowerShell

ollama pull gemma4:e2b

PowerShell

ollama pull gemma4:e4b

PowerShell

ollama pull gemma4:26b

PowerShell

ollama pull gemma4:31b

PowerShell

ollama run gemma4:26b "写一个 TypeScript debounce 函数，并解释边界情况"

用本地 HTTP 接口接入应用

Ollama 跑起来后，会暴露本地服务。你可以用 curl.exe 测一次生成接口。

成功时会返回一段 JSON，里面包含模型生成的文本。这个接口适合低流量、本地实验和脚本集成。

不要把这个本地接口直接当生产服务暴露到公网。它默认适合开发机，不是完整的生产推理平台。

PowerShell

curl.exe http://localhost:11434/api/generate -d '{"model":"gemma4:e4b","prompt":"用两句话解释什么是量化模型","stream":false}'

用 Hugging Face Transformers 跑 Gemma 4

如果你要在 Python 代码里控制推理、接入应用、处理多模态输入或后续微调，再走 Hugging Face Transformers 路径。

先建一个干净环境。

激活环境。

安装基础依赖。

用最小脚本加载 E2B 指令模型。第一次运行会下载权重，时间取决于网络和磁盘。

如果这里报 401、403 或 gated model 相关错误，先登录 Hugging Face，并确认账号已经能访问对应的 Google Gemma 模型页面。不要先改代码。

PowerShell

python -m venv .venv

PowerShell

.\.venv\Scripts\Activate.ps1

PowerShell

pip install torch "transformers>=5.10.1" accelerate

python

from transformers import pipeline

MODEL_ID = "google/gemma-4-E2B-it"

pipe = pipeline(
    task="any-to-any",
    model=MODEL_ID,
    device_map="auto",
    dtype="auto",
)

result = pipe(
    text="<|turn>user\n用三句话解释 Gemma 4 适合什么场景<turn|>\n<|turn>model\n",
    max_new_tokens=200,
)

print(result[0]["generated_text"])

Gemma 4 的 prompt 不要照抄 Gemma 3

Gemma 4 使用新的对话控制 token。最基础的文本对话结构是：

多模态输入还会用到 <|image|> 和 <|audio|> 这类占位 token。图片、音频和工具调用不是“装好模型就自动全能”，还要看你用的运行框架是否支持对应输入。

如果你在 Ollama 里只是做文本对话，先让自然语言 prompt 跑通。如果你在 Transformers 里做多轮、系统提示或多模态输入，再按 Gemma 4 prompt formatting 文档组织消息。

Text

<|turn>system
You are a helpful assistant.<turn|>
<|turn>user
Hello.<turn|>
<|turn>model

安装失败先查这几类问题

ollama 不是可识别命令：重新打开终端；Windows 检查 Ollama 是否加入 PATH；必要时重新安装。

ollama pull 下载很慢：先确认网络能访问 Ollama 模型源；公司网络下检查代理；不要在下载未完成时反复删除重拉。

模型加载后电脑很卡：换 gemma4:e2b 或 gemma4:e4b；关闭其它占内存进程；不要直接测 26B 或 31B。

Python 加载模型时报 401 / 403：先处理 Hugging Face 登录和模型访问权限；不要把它当成 transformers 代码错误。

Python 报显存不足：换更小模型、降低上下文长度、使用量化路径，或者回到 Ollama / llama.cpp 这类更轻的本地运行方式。

返回内容很慢：先判断是第一次下载、首次加载、CPU 推理慢，还是模型本身太大。安装成功不等于响应速度已经适合日常使用。

验证安装真的可用

安装结束后，至少做四个检查：

如果这四项过了，再继续测图片、音频、长上下文、函数调用或应用集成。AI 模型的平均演示很容易过，尾部行为才是安装是否可靠的关键。

版本检查	`ollama --version` 或 Python 依赖能正常输出
模型检查	`ollama list` 能看到目标 Gemma 4 标签
最小生成	`一句短 prompt 能稳定返回文本`
资源观察	`生成时内存、显存和 CPU 没有把系统拖死`

什么时候不要本地安装

本地安装适合学习、试验、离线原型和低流量脚本。下面这些场景不要硬扛：

这些场景更适合上云部署或托管推理服务。本地跑通只是第一步，不是部署架构。

需要多人共享同一个模型服务。
需要稳定 SLA、日志、鉴权、监控和扩缩容。
需要长上下文、高并发或大模型稳定吞吐。
需要处理真实用户数据，并且要有合规审计。

参考来源

Google AI for Developers：Gemma models overview
Google AI for Developers：Get started with Gemma models
Google AI for Developers：Gemma 4 model overview
Google AI for Developers：Run Gemma with Ollama
Google AI for Developers：Run Gemma with Hugging Face Transformers
Google AI for Developers：Gemma 4 Prompt Formatting

参考来源

Gemma models overviewGoogle AI for DevelopersGet started with Gemma modelsGoogle AI for DevelopersGemma 4 model overviewGoogle AI for DevelopersRun Gemma with OllamaGoogle AI for DevelopersRun Gemma with Hugging Face TransformersGoogle AI for DevelopersGemma 4 Prompt FormattingGoogle AI for Developers

Claude、GPT、Gemini 怎么选：AI Coding 任务分配和验证清单智能编程 / 约 12 分钟 AI Terminal 会改变什么：为什么终端正在变成 Agent 工作台智能编程 / 约 10 分钟 7 个关键洞察：AI Coding 工具真正改变的不是写代码，而是验证代码智能编程 / 约 18 分钟 Vibe Coding 到底适合什么项目，不适合什么项目：7个关键判断，帮你少踩坑智能编程 / 约 16 分钟 Codex CLI 实用配置指南：先把这 6 件事配好，再开始让它写代码智能编程 / 约 18 分钟

Gemma 4 怎么安装：先用 Ollama 跑通，再决定要不要上 Python

正文

先选一条安装路径

先按硬件选择模型尺寸

用 Ollama 跑通 Gemma 4

换模型尺寸时只换标签

用本地 HTTP 接口接入应用

用 Hugging Face Transformers 跑 Gemma 4

Gemma 4 的 prompt 不要照抄 Gemma 3

安装失败先查这几类问题

验证安装真的可用

什么时候不要本地安装

参考来源

参考来源

相关文章

写给开发者的修复笔记