Gemma 4 on Hugging Face：谷歌复活节惊喜下载

杰玛-4

谷歌发布 Gemma 4：新的模型系列（E2B 至 31B）直接为笔记本电脑和智能手机带来了推理能力和多模态性。凭借高达 256K 标记的巨大上下文窗口和 Apache 2.0 许可，谷歌为免费的本地人工智能树立了榜样。

Marc Herter (translated by DeepL / Ninh Duy), Published 04/03/2026 🇺🇸 🇩🇪 ...

AI Launch Open Source DIY

复活节前夕，Google 在抱抱脸上发布了一个重大惊喜：期待已久的 Gemma 4 现在可以下载了。这次推出的产品有四个主要尺寸级别：E2B、E4B、26B A4B 和 31B。所有模型都具有集成的 "思考 "模式，能够在给出最终答案之前逐步处理复杂问题。随着 Gemma 4 在LM Studio 和 Unsloth 等工具中的本地使用，围绕该版本发布的兴奋之情不言而喻。和Unsloth等工具中本地使用。

根据谷歌的说法称，新一代 Gemma 优先考虑的是效率而不是原始大小。与上一代 Gemma 3 相比，一个突出的改进是，在各种基准测试中，当前系列中最小的型号已经达到了最大的 Gemma 3 型号的性能水平。实际上，这意味着以前需要高端硬件才能完成的任务，现在可以在智能手机上本地完成。

架构因用途而异。31B 变体采用了相对经典的结构，而 26B-A4B 模型则采用了专家混合（MoE）方法。在推理--实际计算过程中，尽管模型总共拥有 260 亿个参数，但只有约 40 亿个参数被激活。这在不牺牲知识深度的情况下，确保了高速度和适度的资源消耗。较小的 E2B 和 E4B 模型采用了每层嵌入（PLE）技术，在模型的每一层为每个标记提供专门信息，专门针对移动处理器优化性能。

此外，上下文窗口--模型可同时 "记住 "的数据量--也有了重大进步。E2B 和 E4B 模型支持 128,000 个标记，而较大的变体（26B A4B 和 31B）可处理多达 256,000 个标记。这种能力使用户能够一次性分析大量文件或复杂的代码结构。

Gemma 4 深度集成了多模式功能，用户可以在单个提示中无缝混合文本和图像。这些模型能够进行对象识别、阅读 PDF 文档和光学字符识别 (OCR)。此外，边缘模型（E2B 和 E4B）包括视频和音频格式的本机处理，可实现自动语音识别等功能。

另一个强大的功能是对 "函数调用 "的本地支持。这使人工智能能够充当虚拟助手，独立执行软件命令或使用外部工具完成任务。目前在中国流行的 "OpenClaw "工具就是这种趋势的一个明显例子，它依赖于人工智能代理的这一原理。有了 Gemma 4，完全在自己的设备上部署此类系统就变得容易多了。

法律框架也是一个可喜的变化：模型是在Apache 2.0 许可证下发布的。.这意味着它们不仅可以免费使用，还可以灵活地集成到专有项目中并用于商业用途--大大降低了开发人员的门槛。在此之前，所有的 Gemma 模型都是根据谷歌定制的许可证发布的。

初步的实际测试表明，这些模型具有令人印象深刻的语言能力，并提高了效率。在 Bosgame M5我们在 Gemma 4 31B 型号上实现了略高于每秒 10 tokens (tok/s) 的响应速度，比普通读者处理信息的速度还要快。更小的机型反应速度更快：E4B 和 26B A4B 机型轻松超过 40 托币/秒，最小的机型也超过了 60 托币/秒。不过，那些希望使用最大 Gemma 4 型号的全部上下文大小的人可能会发现，即使是 128 GB 内存（如 Bosgame M5）也很紧张；人工智能可以为自己占用超过 80 GB 的内存，几乎没有内存可供其他任务使用。