Comma v0.1 1T 和 2T – 7B LLM 在开放许可文本上进行训练

经过了漫长的时间，我们终于有一些有前途的 LLM 可以尝试，它们完全基于开放许可的文本进行训练！

四年半前，EleutherAI 发布了Pile ：“一个用于语言建模的 800GB 多样化文本数据集”。自那时起，它就被用作许多法学硕士 (LLM) 的基础，但其中的大部分数据来自Common Crawl——一种从公共网络爬取的数据，它几乎忽略了所收集数据的许可证。

Common Pile v0.1是 EleutherAI 对原始 Pile 的继承，它与大量其他组织合作，他们将其描述为“精心策划的 8 TB 公开许可和公共领域文本语料库，用于训练大型语言模型”。

该数据集令人兴奋，但除此之外，他们还发布了两个在其上进行训练的新 LLM：Comma v0.1 1T 和 2T，均具有 70 亿个参数，第一个在 1 万亿个标记上进行训练，第二个在 2 万亿个标记上进行训练。

这些在 Hugging Face 上以common-pile/comma-v0.1-1t和common-pile/comma-v0.1-2t 的形式提供。

EleutherAI 声称这些新模型的表现“与在未经授权的数据上以相同方式训练的领先模型相当”。我决定亲自尝试一下。

这些模型目前仅以.safetensors文件的形式提供，我之前发现这种文件在 macOS 上运行起来很困难。我决定看看能否将它们转换为 [MLX](https://ift.tt/HQTSbo4) 格式，因为我知道如何在 Mac 上运行。

MLX 仍然是一种非常新的格式，但 Claude 4 Sonnet 的训练截止日期是 2025 年 3 月，所以我祈祷它能帮我。它确实做到了！我运行以下命令将 2T 模型转换为使用 MLX 运行：

 uv 运行--python 3.12 \   --使用 mlx-lm \   python -m mlx_lm 转换 \     --hf-path 常见桩/逗号-v0.1-2t \     --mlx 路径 ./comma-v0.1-2t-mlx

我将转换后的模型上传至 Hugging Face，文件名为simonw/comma-v0.1-2t-mlx 。

现在它已经在 Hub 上了，下面是如何尝试它的方法（使用uv run ）：

 uv 运行--python 3.12 \   --使用 mlx-lm \   mlx_lm.生成 \     --model simonw/comma-v0.1-2t-mlx \     --prompt '关于鹈鹕的事实： '

第一次运行该程序时，它将下载 13GB 的文件到~/.cache/huggingface/hub/models--simonw--comma-v0.1-2t-mlx 。

以下是我收到的回复：

1. They are the largest of the water birds. 2. They are found in all parts of the world. 3. They are very good swimmers. 4. They are very good divers. 5. They are very good flyers. 6. They are very good hunters. 7. They are very good eaters. 8. They are very good parents. 9. They are very good friends. 10.

目前该模型的最大限制是它是一个原始基础模型 – 它尚未经过指令调整或设置用于聊天。

这意味着你必须像 GPT-3 时代那样，给它添加前缀提示。你需要给它一个句子让它完成。

这使得评估比我过去几年习惯的指令调整模型困难得多！

我希望有人能尽快发布这个模型的聊天调整版本。挑战在于如何确保训练数据是公开授权的，因为目前大多数用于微调的数据集本身都源自使用未授权数据训练的模型。

标签： llm 、 ai-ethics 、 llm-release 、 generative-ai 、 training-data 、 ai 、 mlx

原文： https://simonwillison.net/2025/Jun/7/comma/#atom-everything