Google 推出 DiffusionGemma 開放實驗模型,文字生成速度提升 4 倍
分類: AI 新品報導 發布時間:
Google DeepMind 於 2026 年 6 月 10 日正式發布 DiffusionGemma,這是 Google 第一款採用「擴散技術」(Diffusion)進行文字生成的開放實驗模型。與傳統自迴歸(Autoregressive)模型逐詞從左到右生成的方式不同,DiffusionGemma 可以一次生成整段文字,大幅提升推理速度。
DiffusionGemma 建立在 Gemma 4 系列與 Gemini Diffusion 研究之上,採用 26B Mixture-of-Experts(MoE)架構,推論時僅激活約 3.8B 參數。
其最大特色在於使用「擴散」機制進行文字生成:
- 模型會先建立一個充滿隨機佔位符的「文字畫布」。
- 透過多次迭代優化,逐步修正文字內容。
- 具備雙向注意力(Bidirectional Attention),能同時考量整段文字的上下文。
- 支援自我修正機制,可在生成過程中即時修復錯誤。
根據 Google 公布的數據,DiffusionGemma 在 GPU 上的推理速度最高可比傳統自迴歸模型快 4 倍。量化後的版本可在高階消費級 GPU(如 RTX 5090)上運行,VRAM 需求約 18GB。
Google 表示,該模型特別適合以下場景:
- 本地端互動式應用
- 即時程式碼生成與編輯
- 低延遲的單用戶工作流程
DiffusionGemma 已正式開放,採用 Apache 2.0 授權,使用者可自由使用、修改與商業化。目前可在以下平台取得:
- Hugging Face:google/diffusiongemma-26B-A4B-it
- Google Cloud Model Garden
- NVIDIA NIM
- vLLM
- llama.cpp(即將支援)


