昨天 Google I/O 上发布的另一个公告是 Gemini Diffusion,这是 Google 第一个使用扩散(类似于 Imagen 和 Stable Diffusion 等图像模型)代替变压器的 LLM。
谷歌对此的描述如下:
传统的自回归语言模型每次生成一个单词(或一个标记)。这种顺序过程可能很慢,并且会限制输出的质量和一致性。
扩散模型的工作原理有所不同。它们不是直接预测文本,而是通过逐步细化噪声来学习生成输出。这意味着它们可以快速迭代解决方案,并在生成过程中进行错误纠正。这有助于它们在编辑等任务中表现出色,包括在数学和代码环境中。
那么关键功能就是速度。我熬过了等待名单,刚刚试了一下,哇,他们说它速度快,可不是开玩笑。
在这个视频中,我用“构建一个模拟聊天应用程序”来提示它,它以每秒 857 个令牌的速度响应,在个位数秒内生成一个交互式 HTML+JavaScript 页面(嵌入在聊天工具中,Claude Artifacts 风格)。
其性能与Cerebras Coder 工具类似,该工具使用 Cerebras 以大约 2,000 个令牌/秒的速度运行 Llama3.1-70b。
在此之前,我遇到的唯一商业级扩散模型是今年 2 月的Inception Mercury 。
标签: llm-release 、 gemini 、 google 、 generative-ai 、 ai 、 google-io 、 llms
原文: https://simonwillison.net/2025/May/21/gemini-diffusion/#atom-everything