扩散 + 编码 = DiffuCode。苹果如何发布一个奇特有趣的编码语言模型

编程_64.png

9to5Mac 写道：“苹果悄悄地在 Hugging Face 上发布了一个全新的 AI 模型，它有一个有趣的变化。与传统的 LLM 生成文本（从左到右、从上到下）不同，它还可以乱序编写代码，并同时改进多个块。” “其结果是代码生成速度更快，性能可与顶级开源编码模型相媲美。” 传统上，大多数 LLM 都是自回归的。这意味着当你问它们一个问题时，它们会处理你的整个问题，预测答案的第一个标记，用第一个标记重新处理整个问题，预测第二个标记，依此类推。这使得它们生成的文本就像我们大多数人阅读的一样：从左到右、从上到下……自回归模型的替代方案是扩散模型，这类模型更常用于像稳定扩散这样的图像模型。简而言之，该模型从模糊、嘈杂的图像开始，并在记住用户请求的同时迭代地消除噪声，使其越来越接近用户请求的内容……最近，一些大型语言模型已经研究了扩散架构来生成文本，并且结果非常有希望……这种行为对于编程尤其有用，因为全局结构比线性标记预测更重要……[Apple] 发布了一个名为 DiffuCode-7B-cpGRPO 的开源模型，该模型建立在上个月刚刚发布的一篇名为 DiffuCoder：理解和改进用于代码生成的掩蔽扩散模型的论文之上……[W]通过一个称为coupled-GRPO的额外训练步骤，它学会了用更少的传递生成更高质量的代码。结果？代码生成速度更快，全局一致，并且可以与一些最好的开源编程模型相媲美。更有趣的是，Apple 的模型建立在阿里巴巴的开源基础模型 Qwen2.5-7B 之上。阿里巴巴首先对该模型进行了微调，以提高代码生成性能（即 Qwen2.5-Coder-7B），然后苹果公司对其进行了调整。他们将其改造成一个带有基于扩散的解码器的新模型，正如 DiffuCoder 论文中所述，然后再次对其进行调整，使其能够更好地遵循指令。完成调整后，他们使用超过 20,000 个精心挑选的编码示例训练了该模型的另一个版本。文章指出：“尽管 DiffuCoder 的表现优于许多基于扩散的编码模型（这还是在 DiffuCoder-7B-cpGRPO 提升 4.4% 之前），但它仍然无法达到 GPT-4 或 Gemini Diffusion 的水平……”。但“更重要的是：苹果公司一直在一点一点地用一些非常有趣且新颖的想法为其生成式人工智能奠定基础。”

在 Slashdot 上阅读更多内容。

原文： https://developers.slashdot.org/story/25/07/05/1259255/diffusion–coding–diffucode-how-apple-released-a-weirdly-interesting-coding-language-model?utm_source=rss1.0mainlinkanon&utm_medium=feed