Google开源Gemma 4：你的手机马上就能跑AI了，不联网、不花钱、数据不外传

2026-04-10 11:56

一个改变游戏规则的事情刚刚发生了

2026年4月2日，Google发布了Gemma 4开源模型家族。四个版本，从手机到服务器全覆盖，完全免费，Apache 2.0许可证，允许商用。

你可能觉得"又开源了一个模型，跟我有什么关系"。这次真的不一样。Gemma 4最小的E2B版本，大概23亿参数，可以直接在你的手机上跑。不需要联网，不需要云服务器，不需要按Token付费。打开手机，AI就在本地跑起来。

这不是概念演示，不是"未来某天可能实现"。Google说得很清楚：跟Pixel团队、高通、联发科联合优化，完全离线运行，延迟接近零。也就是说，你现在就能用。

Gemma 4家族有四个成员，针对不同场景设计：

E2B（约23亿参数），给手机和IoT设备用的。体积极小，能在Android手机、树莓派甚至NVIDIA Jetson Nano上流畅运行。支持文字、图片、视频和音频输入，还能做OCR和图表理解。上下文窗口128K，比你想象的能处理的东西多得多。

E4B（约40亿参数），笔记本级别。比E2B强一档，依然能在消费级硬件上跑。适合需要更高推理质量但不想到云端去的场景。

26B MoE（混合专家模型，总参数260亿，推理时只激活约38亿），这个是性价比之王。参数量大但实际推理时只激活一小部分，所以对硬件的要求远低于同级别的密集模型。量化后能在消费级GPU上跑。

31B Dense（密集模型，310亿参数），家族里最强的。Google说它目前在Arena AI全球开源模型排行榜上排第三，26B版本排第六。考虑到它们的参数量，这个成绩相当惊人，打败了不少参数量20倍的模型。上下文窗口256K，能一次性吞下整个代码仓库或超长文档。

Google还强调了一点：所有模型都支持超过140种语言原生训练，不是后期加的翻译层。对中文用户来说，这意味着用起来不会有"翻译腔"的尴尬。

很多人可能还没意识到这件事的分量。我拆开说。

先说隐私。你跟ChatGPT聊天，数据要传到OpenAI的服务器。你用Gemma 4的E2B版本，数据从头到尾不离开你的手机。没有"可能被用来训练模型"的担忧，没有"万一泄露怎么办"的焦虑。对于涉及个人隐私、商业机密、医疗健康的场景，这一点至关重要。

再说速度。云端AI再快，也得走网络来回。本地推理是微秒级响应。语音助手不会再有"请稍等，我正在思考"的尴尬停顿。实时翻译、拍照识别、文档分析，都能做到即问即答。

然后是钱。开源模型，免费下载，本地运行，没有API调用费用。对于个人开发者和中小企业来说，这笔账很好算。以前用GPT-4做一个应用，光API费用可能每个月就几千块。现在用Gemma 4，硬件成本之外几乎为零。

最后是离线。飞机上、地铁里、信号差的地方，AI照样能用。这个场景听起来不起眼，但真正需要的时候你会发现它有多重要。

门槛其实很低，远比你想象的简单。

如果你只是想体验一下，下载Google的AI Edge Gallery应用就行。Android和iOS都有，装上就能在手机上跑E2B或E4B模型。不需要写代码，不需要配置环境。

如果你是开发者，想把它集成到自己的App里，Google提供了LiteRT-LM运行时和MediaPipe LLM推理SDK。Ollama、Hugging Face、vLLM、llama.cpp这些主流工具链在发布当天就全部支持了。下载模型权重，一条命令就能跑起来。

具体来说，用Ollama的话大概是这样的：

ollama run gemma4:2b

一行命令，模型下载完就能对话了。在笔记本电脑上跑E4B版本也很流畅，8GB显存的GPU就够了。26B的量化版本在16GB显存的消费级GPU上也能跑。

开源大模型不是新鲜事。Meta的Llama系列、阿里的Qwen系列、法国的Mistral，都在开源领域深耕已久。但Gemma 4的不同之处在于，它是第一个把"在手机上跑一个真正有用的AI"这件事做到位的。

以前的开源小模型，要么能力太弱只能做简单问答，要么需要精心调优才能用。Gemma 4的E2B版本，原生支持文字、图片、视频、音频四种模态，能做OCR、能理解图表、能处理30秒以内的语音输入。这不是一个阉割版的玩具模型，而是一个功能完整的多模态AI，恰好小到能塞进手机里。

Google把这个模型做成Apache 2.0协议，意味着任何人都可以免费用于商业目的。你可以把它打包进你的App，可以基于它做二次开发，可以拿它给客户做解决方案，不需要给Google付一分钱。

这意味着什么？意味着从现在开始，会有大量App悄悄内置本地AI能力。你可能明年用的某个拍照翻译App、某个文档扫描工具、某个语音备忘录应用，底层跑的就是Gemma 4或者类似的端侧模型。你根本感知不到，但你的体验会变好：更快、更隐私、不需要网络。

我一直觉得，AI真正的普及不是靠一个更聪明的聊天机器人，而是靠AI变得"看不见"。当你不需要打开一个叫"AI"的应用，当AI能力已经嵌入到你日常用的每一个工具里，当你的手机在没有网络的时候依然能帮你翻译、总结、识别，那才是AI真正改变普通人的生活。

Gemma 4朝着这个方向走了一大步。它不是最强大的模型，也不是最聪明的模型，但它可能是第一个让"每个人的手机里都有一个本地AI"这件事变得现实的模型。

从ChatGPT引爆这波AI浪潮到现在，三年过去了。三年里，AI的能力突飞猛进，但对大多数普通人来说，AI依然是"打开一个网页，输入问题，等回答"的模式。Gemma 4改变了这个模式：AI不再需要你去找它，它会主动来到你的设备上，安静地待在那里，随叫随到。

这个变化比任何模型参数的增长都重要。