一个改变游戏规则的事情刚刚发生了
2026年4月2日,Google发布了Gemma 4开源模型家族。四个版本,从手机到服务器全覆盖,完全免费,Apache 2.0许可证,允许商用。
你可能觉得"又开源了一个模型,跟我有什么关系"。这次真的不一样。Gemma 4最小的E2B版本,大概23亿参数,可以直接在你的手机上跑。不需要联网,不需要云服务器,不需要按Token付费。打开手机,AI就在本地跑起来。
这不是概念演示,不是"未来某天可能实现"。Google说得很清楚:跟Pixel团队、高通、联发科联合优化,完全离线运行,延迟接近零。也就是说,你现在就能用。
四个版本,各管一摊
Gemma 4家族有四个成员,针对不同场景设计:
E2B(约23亿参数),给手机和IoT设备用的。体积极小,能在Android手机、树莓派甚至NVIDIA Jetson Nano上流畅运行。支持文字、图片、视频和音频输入,还能做OCR和图表理解。上下文窗口128K,比你想象的能处理的东西多得多。
E4B(约40亿参数),笔记本级别。比E2B强一档,依然能在消费级硬件上跑。适合需要更高推理质量但不想到云端去的场景。
26B MoE(混合专家模型,总参数260亿,推理时只激活约38亿),这个是性价比之王。参数量大但实际推理时只激活一小部分,所以对硬件的要求远低于同级别的密集模型。量化后能在消费级GPU上跑。
31B Dense(密集模型,310亿参数),家族里最强的。Google说它目前在Arena AI全球开源模型排行榜上排第三,26B版本排第六。考虑到它们的参数量,这个成绩相当惊人,打败了不少参数量20倍的模型。上下文窗口256K,能一次性吞下整个代码仓库或超长文档。
Google还强调了一点:所有模型都支持超过140种语言原生训练,不是后期加的翻译层。对中文用户来说,这意味着用起来不会有"翻译腔"的尴尬。
手机上跑AI,到底意味着什么
很多人可能还没意识到这件事的分量。我拆开说。
先说隐私。你跟ChatGPT聊天,数据要传到OpenAI的服务器。你用Gemma 4的E2B版本,数据从头到尾不离开你的手机。没有"可能被用来训练模型"的担忧,没有"万一泄露怎么办"的焦虑。对于涉及个人隐私、商业机密、医疗健康的场景,这一点至关重要。
再说速度。云端AI再快,也得走网络来回。本地推理是微秒级响应。语音助手不会再有"请稍等,我正在思考"的尴尬停顿。实时翻译、拍照识别、文档分析,都能做到即问即答。
然后是钱。开源模型,免费下载,本地运行,没有API调用费用。对于个人开发者和中小企业来说,这笔账很好算。以前用GPT-4做一个应用,光API费用可能每个月就几千块。现在用Gemma 4,硬件成本之外几乎为零。
最后是离线。飞机上、地铁里、信号差的地方,AI照样能用。这个场景听起来不起眼,但真正需要的时候你会发现它有多重要。
怎么用起来
门槛其实很低,远比你想象的简单。
如果你只是想体验一下,下载Google的AI Edge Gallery应用就行。Android和iOS都有,装上就能在手机上跑E2B或E4B模型。不需要写代码,不需要配置环境。
如果你是开发者,想把它集成到自己的App里,Google提供了LiteRT-LM运行时和MediaPipe LLM推理SDK。Ollama、Hugging Face、vLLM、llama.cpp这些主流工具链在发布当天就全部支持了。下载模型权重,一条命令就能跑起来。
具体来说,用Ollama的话大概是这样的:
ollama run gemma4:2b
一行命令,模型下载完就能对话了。在笔记本电脑上跑E4B版本也很流畅,8GB显存的GPU就够了。26B的量化版本在16GB显存的消费级GPU上也能跑。
这件事真正的意义在哪里
开源大模型不是新鲜事。Meta的Llama系列、阿里的Qwen系列、法国的Mistral,都在开源领域深耕已久。但Gemma 4的不同之处在于,它是第一个把"在手机上跑一个真正有用的AI"这件事做到位的。
以前的开源小模型,要么能力太弱只能做简单问答,要么需要精心调优才能用。Gemma 4的E2B版本,原生支持文字、图片、视频、音频四种模态,能做OCR、能理解图表、能处理30秒以内的语音输入。这不是一个阉割版的玩具模型,而是一个功能完整的多模态AI,恰好小到能塞进手机里。
Google把这个模型做成Apache 2.0协议,意味着任何人都可以免费用于商业目的。你可以把它打包进你的App,可以基于它做二次开发,可以拿它给客户做解决方案,不需要给Google付一分钱。
这意味着什么?意味着从现在开始,会有大量App悄悄内置本地AI能力。你可能明年用的某个拍照翻译App、某个文档扫描工具、某个语音备忘录应用,底层跑的就是Gemma 4或者类似的端侧模型。你根本感知不到,但你的体验会变好:更快、更隐私、不需要网络。
我的判断
我一直觉得,AI真正的普及不是靠一个更聪明的聊天机器人,而是靠AI变得"看不见"。当你不需要打开一个叫"AI"的应用,当AI能力已经嵌入到你日常用的每一个工具里,当你的手机在没有网络的时候依然能帮你翻译、总结、识别,那才是AI真正改变普通人的生活。
Gemma 4朝着这个方向走了一大步。它不是最强大的模型,也不是最聪明的模型,但它可能是第一个让"每个人的手机里都有一个本地AI"这件事变得现实的模型。
从ChatGPT引爆这波AI浪潮到现在,三年过去了。三年里,AI的能力突飞猛进,但对大多数普通人来说,AI依然是"打开一个网页,输入问题,等回答"的模式。Gemma 4改变了这个模式:AI不再需要你去找它,它会主动来到你的设备上,安静地待在那里,随叫随到。
这个变化比任何模型参数的增长都重要。