2024 年,大型语言模型领域发生了很多事情。以下是我们在过去 12 个月中对该领域的了解的回顾,以及我在确定关键主题和关键时刻方面的尝试。
这是我对 2023 年回顾的续集。
在本文中:
- GPT-4壁垒被全面打破
- 其中一些 GPT-4 模型在我的笔记本电脑上运行
- 由于竞争和效率提高,LLM 价格暴跌
- 多模态视觉很常见,音频和视频开始出现
- 语音和实时摄像模式将科幻小说变为现实
- 快速驱动的应用程序生成已经成为一种商品
- 最佳模型的普及只持续了短短几个月
- “特工”还没有真正发生
- 评估确实很重要
- Apple Intelligence 很糟糕,Apple 的 MLX 库很棒
- 推理扩展“推理”模型的兴起
- 目前最好的法学硕士在中国接受培训的费用是否低于 600 万美元?
- 环境影响有所好转
- 环境影响变得更加严重
- 泥水之年
- 综合训练数据效果很好
- 法学硕士不知何故变得更难使用
- 知识分布极不均匀
- LLM需要更好的批评
- 2024 年我博客上所有标记为“llms”的内容
GPT-4壁垒被全面打破
在 2023 年 12 月的评论中,我写了关于我们如何还不知道如何构建 GPT-4 – OpenAI 的最佳模型当时已经发布了将近一年,但没有其他 AI 实验室生产出更好的模型。 OpenAI 知道哪些我们其他人不知道的事情?
我感到欣慰的是,在过去的十二个月里,情况已经完全改变了。现在, Chatbot Arena 排行榜上有 18 个组织的模型排名高于 2023 年 3 月起的原始 GPT-4(排行榜上的GPT-4-0314
)——总共 70 个模型。
其中最早的是谷歌二月份发布的 Gemini 1.5 Pro 。除了生成 GPT-4 级别的输出之外,它还向该领域引入了多项全新功能 – 最引人注目的是其 100 万(后来是 200 万)令牌输入上下文长度以及输入视频的能力。
我当时在《Gemini Pro 1.5 的杀手级应用是视频》中写到了这一点,这使我在 5 月份的 Google I/O 开幕主题演讲中短暂露面。
Gemini 1.5 Pro 还阐释了 2024 年的关键主题之一:增加上下文长度。去年,大多数模型接受 4,096 或 8,192 个代币,但 Claude 2.1 是一个明显的例外,它接受 200,000 个代币。如今,每个认真的提供商都有 100,000+ 代币模型,而 Google 的 Gemini 系列最多接受 200 万个。
更长的输入极大地增加了法学硕士可以解决的问题范围:您现在可以扔进一整本书并提出有关其内容的问题,但更重要的是您可以输入大量示例代码来帮助模型正确解决问题编码问题。对我来说,涉及长输入的 LLM 用例比纯粹依赖于已融入模型权重的信息的短提示更有趣。我的许多工具都是使用这种模式构建的。
回到击败 GPT-4 的车型:Anthropic在 3 月份推出的Claude 3 系列,Claude 3 Opus 很快成为我最喜欢的日常驾驶者。他们在 6 月份进一步加大了赌注,推出了 Claude 3.5 Sonnet ,这款型号在 6 个月后仍然是我最喜欢的(尽管它在 10 月 22 日进行了重大升级,令人困惑地保持了相同的 3.5 版本号。Anthropic 粉丝从此开始接受称之为克劳德 3.6)。
然后就是剩下的了。如果您今天浏览Chatbot Arena 排行榜(仍然是获得基于振动的模型评估的最有用的单一位置),您会发现 GPT-4-0314 已跌至第 70 位左右。模型得分较高的 18 个组织分别是 Google、OpenAI、阿里巴巴、Anthropic、Meta、Reka AI、01 AI、Amazon、Cohere、DeepSeek、Nvidia、Mistral、NexusFlow、Zhipu AI、xAI、AI21 Labs、Princeton 和腾讯。
在 2023 年,训练 GPT-4 击败模型是一件大事。在 2024 年,这一成就甚至不是特别引人注目,尽管我个人仍然会庆祝任何新组织加入该列表。
其中一些 GPT-4 模型在我的笔记本电脑上运行
我的个人笔记本电脑是 2023 年推出的 64GB M2 Macbook Pro。它是一台功能强大的机器,但它现在也已经有近两年的历史了 – 最重要的是,自从 3 月份我第一次在我的电脑上运行法学硕士以来,它就是我一直使用的同一台笔记本电脑2023 年(请参阅大型语言模型正在经历稳定扩散时刻)。
去年 3 月,同一台笔记本电脑只能运行 GPT-3 级型号,现在可以运行多个 GPT-4 级型号!我对此的一些注释:
- Qwen2.5-Coder-32B 是一个可以在我的 Mac 上运行的法学硕士,可以在 11 月份谈论 Qwen2.5-Coder-32B – Apache 2.0 许可模型!
- 我现在可以在我的笔记本电脑上运行 GPT-4 类模型谈论运行 Meta 的 Llama 3.3 70B(12 月发布)
这对我来说仍然令人惊讶。我认为具有 GPT-4 功能和输出质量的模型需要配备一个或多个 40,000 美元以上 GPU 的数据中心级服务器。
这些模型占用了我 64GB 的 RAM,因此我不经常运行它们 – 它们没有为其他任何东西留下太多空间。
它们的运行事实证明了我们在过去一年中取得的令人难以置信的训练和推理性能提升。事实证明,在模型效率方面,有很多容易实现的成果有待收获。我预计还会有更多的事情发生。
Meta 的 Llama 3.2 型号值得特别一提。它们可能不是 GPT-4 级,但在 1B 和 3B 尺寸下,它们的冲击力远远超出了它们的重量。我使用免费的MLC Chat iOS 应用程序在 iPhone 上运行 Llama 3.2 3B,它的尺寸虽小(<2GB),但功能却令人震惊。尝试启动它并要求它提供“Netflix 圣诞电影的情节大纲,其中一名数据记者爱上了当地的陶艺家”。这是我以每秒 20 个令牌的速度得到的结果:
这是文字记录的其余部分。虽然平淡无奇,但我的手机现在可以向 Netflix 推荐平淡无奇的圣诞电影了!
由于竞争和效率提高,LLM 价格暴跌
在过去的十二个月里,通过顶级托管的法学硕士运行提示的成本急剧下降。
2023 年 12 月(这里是OpenAI 定价页面的互联网档案馆),OpenAI 对 GPT-4 收取 30 美元/百万输入代币的费用,对当时新的 GPT-4 Turbo 收取 10 美元/mTok 的费用,对 GPT-3.5 Turbo 收取 1 美元/mTok 的费用。
今天,30 美元/mTok 即可让您获得 OpenAI 最昂贵的模型 o1。 GPT-4o 的价格为 2.50 美元(比 GPT-4 便宜 12 倍),GPT-4o mini 的价格为 0.15 美元/mTok – 比 GPT-3.5 便宜近 7 倍,而且功能更强大。
其他模型提供商的收费甚至更低。 Anthropic 的 Claude 3 Haiku(从 3 月份开始,但仍然是他们最便宜的型号)的价格为 0.25 美元/mTok。 Google 的 Gemini 1.5 Flash 价格为 0.075 美元/mTok,Gemini 1.5 Flash 8B 价格为 0.0375 美元/mTok – 比去年的 GPT-3.5 Turbo 便宜 27 倍。
我一直在我的llm-pricing 标签下跟踪这些定价变化。
这些价格下降是由两个因素驱动的:竞争加剧和效率提高。对于每个关心法学硕士对环境影响的人来说,效率确实很重要。这些价格下降与运行提示所使用的能源量直接相关 – 我从我信任的消息来源听说,Google Gemini 和 Amazon Nova 收取的费用都低于运行推理的能源成本,我认为同样的情况也适用其他供应商。
关于大型人工智能数据中心扩建对环境的影响,仍有很多值得担心的地方,但对单个提示的能源成本的许多担忧已不再可信。
这里有一个有趣的餐巾纸计算:使用 Google 的 Gemini 1.5 Flash 8B( 10 月份发布)(他们最便宜的型号)为我的个人照片库中的 68,000 张照片生成每一张的简短描述需要花费多少钱?
每张照片需要 260 个输入标记和大约 100 个输出标记。
260 * 68,000 = 17,680,000 个输入令牌
17,680,000 * 0.0375 美元/百万 = 0.66 美元
100 * 68,000 = 6,800,000 输出代币
6,800,000 * 0.15 美元/百万 = 1.02 美元
处理 68,000 张图像的总成本为1.68 美元。这实在是太便宜了,我不得不将数字运行三遍以确认我的计算是正确的。
这些描述有多好?这是我从这个命令中得到的信息:
llm -m gemini-1.5-flash-8b-latest describe -a IMG_1825.jpeg
对比加州科学院的这张蝴蝶照片:
浅盘(例如蜂鸟或蝴蝶喂食器)是红色的。盘子里可以看到橙色的水果片。
喂食器中有两只蝴蝶,一只是深棕色/黑色蝴蝶,带有白色/奶油色斑纹。另一种是大型棕色蝴蝶,具有浅棕色、米色和黑色斑纹图案,包括突出的眼斑。较大的棕色蝴蝶似乎正在以水果为食。
260 个输入令牌,92 个输出令牌。成本约为 0.0024 美分(不到四百分之一)。
从 2024 年开始,效率的提高和价格的降低是我最喜欢的趋势。我希望以能源成本的一小部分来获得法学硕士的效用,看起来这就是我们所得到的。
多模态视觉很常见,音频和视频开始出现
我上面的蝴蝶例子说明了 2024 年以来的另一个关键趋势:多模式法学硕士的兴起。
一年前,其中最引人注目的一个例子是 GPT-4 Vision,它于 2023 年 11 月在 OpenAI 的 DevDay 上发布。 Google 的多模式 Gemini 1.0于 2023 年 12 月 7 日发布,因此它也(刚刚)进入 2023 年窗口。
2024年,几乎所有重要的模型供应商都发布了多模态模型。我们在3月份看到了Anthropic的Claude 3系列,在4月份看到了Gemini 1.5 Pro(图像、音频和视频),然后在9月份带来了Qwen2-VL和Mistral的Pixtral 12B以及Meta的Llama 3.2 11B和90B视觉模型。我们在 10 月份从 OpenAI获得了音频输入和输出,然后在 11 月份看到了来自 Hugging Face 的 SmolVLM ,12 月看到了来自 Amazon Nova 的图像和视频模型。
10 月份,我升级了 LLM CLI 工具,以通过附件支持多模式模型。它现在拥有适用于各种不同视觉模型的插件。
我认为那些抱怨法学硕士进步速度放缓的人往往错过了这些多模式模型的巨大进步。能够针对图像(以及音频和视频)运行提示是应用这些模型的一种令人着迷的新方法。
语音和实时摄像模式将科幻小说变为现实
特别值得一提的是已经开始出现的音频和视频直播模式。
与 ChatGPT 对话的能力于 2023 年 9 月首次实现,但这主要是一种幻想:OpenAI 使用其出色的 Whisper 语音转文本模型和新的文本转语音模型(创造性地命名为tts-1 )来实现与 ChatGPT 的对话ChatGPT 移动应用程序,但实际模型只看到文本。
5 月 13 日发布的 GPT-4o 包括一个全新语音模式的演示,其中真正的多模态 GPT-4o(o 代表“全向”)模型可以接受音频输入并输出极其逼真的语音,而无需单独的TTS 或 STT 模型。
该演示版的声音听起来也与斯嘉丽·约翰逊 (Scarlett Johansson) 非常相似……在她抱怨演示版中的声音后,斯凯 (Skye) 从未进入生产产品。
在最初的演示之后,新语音模式的延迟发布引起了相当多的混乱。我在ChatGPT 中写道,“4o”模式尚未运行新功能。
当 ChatGPT 高级语音模式最终推出时(从 8 月到 9 月缓慢推出),场面非常壮观。我在与我的狗散步时广泛使用它,令人惊讶的是语调的改进极大地提升了材料的水平。我还对 OpenAI 音频 API 进行了很多有趣的尝试。
更有趣的是:高级语音模式可以做重音!这就是当我告诉它我需要你假装是一只带有浓重俄罗斯口音的加州褐鹈鹕,但你只用西班牙语跟我说话时发生的事情。
OpenAI 并不是唯一拥有多模态音频模型的组织。谷歌的 Gemini 也接受音频输入,谷歌 Gemini 应用程序现在可以以与 ChatGPT 类似的方式说话。亚马逊还预先宣布了Amazon Nova 的语音模式,但这意味着将于 2025 年第一季度推出。
Google 的 NotebookLM于 9 月发布,通过在两个“播客主持人”之间生成关于您输入到他们工具中的任何内容的令人毛骨悚然的真实对话,将音频输出提升到了一个新的水平。他们后来添加了自定义指令,所以很自然地我把它们变成了鹈鹕:
最近的一次转折,还是从 12 月开始(12 月发生了很多),就是视频直播。 ChatGPT 语音模式现在提供了与模特分享您的摄像头信息并实时谈论您所看到的内容的选项。 Google Gemini 有相同功能的预览版,他们在 ChatGPT 发布前一天就成功发布了该功能。
这些能力目前才出现几周,我认为它们的影响还没有被充分感受到。如果您还没有尝试过,那么您真的应该尝试一下。
Gemini 和 OpenAI 都提供对这些功能的 API 访问。 OpenAI 一开始使用的WebSocket API相当具有挑战性,但在 12 月他们宣布了一个新的 WebRTC API ,该 API 更容易上手。现在构建一个用户可以通过语音交谈的网络应用程序很容易!
快速驱动的应用程序生成已经成为一种商品
到 2023 年,GPT-4 就可以实现这一点,但它提供的价值到 2024 年才变得显而易见。
我们已经知道法学硕士非常擅长编写代码。如果你提示正确,他们可以使用 HTML、CSS 和 JavaScript(如果你连接一些额外的支持构建机制,还可以使用 React 等工具)为你构建一个完整的交互式应用程序– 通常在一个提示中。
Anthropic 在发布Claude Artifacts时将这个想法推向了高潮,这是一个开创性的新功能,由于在发布令人难以置信的 Claude 3.5 Sonnet时被描述到一半,因此最初在噪音中略有消失。
借助 Artifacts,Claude 可以为您编写一个按需交互式应用程序,然后让您直接在 Claude 界面中使用它。
这是我的Extract URLs应用程序,完全由 Claude 生成:
我发现自己经常使用这个。我在 10 月份注意到自己对它的依赖程度,并于本周写了《我用 Claude Artifacts 构建的一切》 ,描述了我在 7 天的时间里组装的 14 个小工具。
从那时起,许多其他团队也构建了类似的系统。 GitHub 在 10 月份宣布了他们的版本 – GitHub Spark 。 Mistral Chat 在 11 月将其添加为一项名为 Canvas 的功能。
来自 Val Town 的 Steve Krause针对 Cerebras 构建了一个版本,展示了每秒 2,000 个令牌的 LLM 如何在应用程序上进行迭代,并在不到一秒的时间内看到可见的更改。
然后在 12 月,Chatbot Arena 团队为此功能推出了一个全新的排行榜,由用户使用两种不同的模型两次构建相同的交互式应用程序并对答案进行投票来推动。很难提出更有说服力的论据来证明此功能现在已成为一种可以针对所有领先模型有效实施的商品。
我自己一直在为我的 Datasette 项目修改这个版本,目的是让用户使用提示来针对自己的数据构建和迭代自定义小部件和数据可视化。我还发现了一种类似的用于编写一次性 Python 程序的模式,由 uv 启用。
这种提示驱动的自定义界面功能非常强大且易于构建(一旦您弄清楚了浏览器沙箱的粗糙细节),我预计它会在 2025 年作为一项功能出现在各种产品中。
最佳模型的普及只持续了短短几个月
在今年的短短几个月内,所有三个最好的型号 – GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro – 都免费向世界大部分地区提供。
OpenAI在 5 月份向所有用户免费提供了 GPT-4o,而 Claude 3.5 Sonnet 从6 月份发布起就可以免费使用。这是一个重大变化,因为前一年免费用户大多仅限于 GPT-3.5 级别的模型,这意味着新用户对有能力的 LLM 实际可以做什么有一个非常不准确的心理模型。
随着 OpenAI 推出ChatGPT Pro,那个时代似乎已经结束了,而且很可能是永久结束了。这项 200 美元/月的订阅服务是访问其功能最强大的型号 o1 Pro 的唯一途径。
由于 o1 系列(以及它无疑会激发的未来模型)背后的技巧是花费更多的计算时间来获得更好的结果,我认为免费访问最佳可用模型的日子可能不会再回来。
“特工”还没有真正发生
我发现“代理人”这个词非常令人沮丧。它缺乏单一、清晰且广泛理解的含义……但使用该术语的人似乎从未承认这一点。
如果你告诉我你正在构建“代理”,那么你几乎没有向我传达任何信息。如果不读懂你的想法,我无法说出你正在谈论的数十种可能的定义。
我看到的两个主要类别是那些认为人工智能代理显然是代表你行事的人——旅行社模型——以及那些从法学硕士的角度思考的人,他们已经获得了可以循环运行的工具作为解决问题的一部分。 “自治”一词也经常被混入其中,但同样没有明确的定义。
(几个月前,我还在 Twitter 上收集了 211 个定义– 它们位于 Datasette Lite 中– 并让gemini-exp-1206
尝试总结它们。)
无论这个词的含义是什么,代理商仍然有一种永远“即将到来”的感觉。
抛开术语不谈,我仍然对它们的实用性持怀疑态度,因为它们再次面临着容易上当受骗的挑战。法学硕士相信你告诉他们的任何事情。任何试图代表你做出有意义的决定的系统都会遇到同样的障碍:如果旅行社、数字助理、甚至是研究工具无法区分事实与虚构,那么它有多好?
就在前几天,谷歌搜索被发现提供了对不存在的电影“Encanto 2”的完全虚假的描述。事实证明,它是从同人小说维基中总结出的想象中的电影列表。
及时注射是这种轻信的自然结果。我发现 2024 年解决这个问题几乎没有取得什么进展,而且我们自 2022 年 9 月以来一直在讨论这个问题。
我开始认为最流行的“代理”概念依赖于 AGI 本身。一个能够抵御轻信的模型确实是一个非常艰巨的任务。
评估确实很重要
Anthropic 的阿曼达·阿斯克尔(负责克劳德角色背后的大部分工作):
良好的系统提示背后的无聊但至关重要的秘密是测试驱动开发。您不会写下系统提示并找到测试它的方法。您写下测试并找到通过测试的系统提示。
到 2024 年,人们会变得非常清楚,为 LLM 支持的系统编写良好的自动化评估是在这些模型之上构建有用的应用程序最需要的技能。如果您拥有强大的评估套件,您可以比竞争对手更快地采用新模型、更好地迭代并构建更可靠和有用的产品功能。
Vercel 的Malte Ubl :
当@v0第一次出现时,我们对通过各种复杂的预处理和后处理来保护提示感到偏执。
我们完全转向让它撕裂。没有评估、模型,尤其是用户体验的提示就像没有手册的坏掉的 ASML 机器一样
我仍在努力找出为我自己的工作做到这一点的最佳模式。每个人都知道评估很重要,但是对于如何最好地实现它们仍然缺乏很好的指导 – 我正在我的评估标签下跟踪这一点。我的SVG 鹈鹕骑自行车基准只是对真实评估套件外观的苍白模仿。
Apple Intelligence 很糟糕,Apple 的 MLX 库很棒
作为一名 Mac 用户,我对今年选择的平台感觉好多了。
去年,我感觉缺乏配备 NVIDIA GPU 的 Linux/Windows 机器对于尝试新模型来说是一个巨大的劣势。
从理论上讲,由于 CPU 和 GPU 可以共享相同的内存,64GB Mac 应该是运行模型的绝佳机器。在实践中,许多模型作为模型权重和库发布,以奖励 NVIDIA 的 CUDA 而非其他平台。
llama.cpp生态系统在这里提供了很大帮助,但真正的突破是 Apple 的MLX库,“Apple Silicon 的数组框架”。太棒了。
Apple 的mlx-lm Python 支持在我的 Mac 上运行多种 MLX 兼容模型,性能出色。 Hugging Face 上的mlx-community提供了 1,000 多个已转换为必要格式的模型。
Prince Canuma 出色且发展迅速的mlx-vlm项目也为 Apple Silicon 带来了视觉法学硕士。我最近用它来运行 Qwen 的 QvQ 。
虽然 MLX 改变了游戏规则,但苹果自己的“Apple Intelligence”功能却大多令人失望。我在 6 月份写了他们最初的公告,我很乐观地认为苹果公司一直致力于保护用户隐私并最大限度地减少用户因令人困惑的功能而被误导的 LLM 应用程序子集。
现在这些功能已经推出,但它们却相当薄弱。作为一名法学硕士高级用户,我知道这些模型的能力,而苹果的法学硕士功能对前沿法学硕士的功能提供了苍白的模仿。相反,我们收到了歪曲新闻标题的通知摘要和我认为根本没有用的写作辅助工具。不过 Genmoji 还蛮有趣的。
推理扩展“推理”模型的兴起
2024 年最后一个季度最有趣的发展是 LLM 的新形式的引入,以 OpenAI 的 o1 模型为例 – 最初于 9 月 12 日发布为 o1-preview 和 o1-mini 。
思考这些模型的一种方法是思想链提示技巧的扩展,该技巧首次在 2022 年 5 月的论文《大型语言模型是零样本推理机》中进行了探讨。
这就是一个技巧,如果你让一个模型大声谈论它正在解决的问题,你通常会得到模型原本无法实现的结果。
o1 采用此过程并将其进一步烘焙到模型本身中。细节有些模糊:o1 模型花费“推理令牌”思考用户无法直接看到的问题(尽管 ChatGPT UI 显示了它们的摘要),然后输出最终结果。
这里最大的创新是它开辟了一种扩展模型的新方法:模型现在可以通过在推理上花费更多的计算来解决更困难的问题,而不是纯粹通过训练时的额外计算来提高模型性能。
o1、o3 的续作(由于欧洲商标原因,他们跳过了“o2”)于 12 月 20 日发布,在ARC-AGI 基准测试中取得了令人印象深刻的结果,尽管可能涉及超过 1,000,000 美元的计算时间费用!
o3 预计一月份发货。我怀疑很多人都会遇到现实世界的问题,这些问题会从这种计算支出水平中受益 – 我当然不会! – 但这似乎是法学硕士架构中真正的下一步,可以解决更困难的问题。
OpenAI 并不是这里唯一的游戏。 Google于 12 月 19 日发布了该类别的第一个产品gemini-2.0-flash-thinking-exp
。
阿里巴巴的 Qwen 团队于 11 月 28 日发布了他们的 QwQ 模型– 在 Apache 2.0 许可证下,我可以在自己的机器上运行该模型。随后,他们于 12 月 24 日推出了一个名为 QvQ 的视觉推理模型,我也在本地运行了该模型。
DeepSeek于 11 月 20 日推出了DeepSeek-R1-Lite-Preview模型,可通过其聊天界面进行试用。
要了解有关推理扩展的更多信息,我建议人工智能进展是否正在放缓?作者:阿尔文德·纳拉亚南 (Arvind Narayanan) 和萨亚什·卡普尔 (Sayash Kapoor)。
Anthropic 或 Meta 尚未提供任何信息,但如果他们没有自己的推理扩展模型正在开发中,我会感到非常惊讶。 Meta于12月发表了相关论文Training Large Language Models to Reason in a Continuous Latent Space 。
目前最好的法学硕士在中国接受培训的费用是否低于 600 万美元?
不完全是,但也差不多了!它确实是一个引人注目的标题。
今年年底的大新闻是DeepSeek v3 的发布 – 在圣诞节当天就在 Hugging Face 上发布,连 README 文件都没有,然后第二天就发布了文档和论文。
DeepSeek v3 是一个巨大的 685B 参数模型 – 目前可用的最大的公开许可模型之一,明显大于 Meta 的 Llama 系列中最大的 Llama 3.1 405B。
基准测试将其与 Claude 3.5 Sonnet 放在一起。 Vibe 基准测试(又名Chatbot Arena )目前排名第七,仅次于 Gemini 2.0 和 OpenAI 4o/o1 模型。这是迄今为止排名最高的公开许可模型。
DeepSeek v3 真正令人印象深刻的是训练成本。该模型在 H800 GPU 上训练了 2,788,000 个小时,估计成本为 5,576,000 美元。 Llama 3.1 405B 训练了 30,840,000 个 GPU 小时 – 是 DeepSeek v3 使用的 11 倍,对于基准测试稍差的模型。
美国对中国 GPU 的出口法规似乎激发了一些非常有效的训练优化!
环境影响有所好转
模型(无论是托管模型还是我可以在本地运行的模型)效率提高的一个可喜结果是,运行提示的能源使用和环境影响在过去几年中大幅下降。
与 GPT-3 天相比,OpenAI 本身的提示费用要低 100 倍。我有充分的证据表明,Google Gemini 和 Amazon Nova(两个最便宜的模型提供商)都不会亏本运行提示。
我认为这意味着,作为个人用户,我们根本不需要为绝大多数提示所消耗的能量感到内疚。与在街上开车甚至在 YouTube 上观看视频相比,这种影响可能可以忽略不计。
同样,训练。 DeepSeek v3 培训费用低于 600 万美元,这是一个极好的迹象,表明培训成本可以而且应该继续下降。
对于效率较低的机型,我发现将其能源使用量与商业航班进行比较很有用。最大的 Llama 3 型号的成本大约相当于从纽约到伦敦的满载客运航班的个位数。这当然不是什么,但是一旦经过训练,该模型就可以被数百万人使用,而无需额外的培训成本。
环境影响变得更加严重
这里更大的问题是未来这些模型所必需的基础设施的巨大竞争建设。
谷歌、Meta、微软和亚马逊等公司都花费数十亿美元推出新的数据中心,对电网和环境产生了非常重大的影响。甚至有人讨论建造新的核电站,但这可能需要几十年的时间。
这个基础设施有必要吗? DeepSeek v3 的 600 万美元培训成本和 LLM 价格的持续暴跌可能暗示事实并非如此。但是,您是否想成为一位大型科技高管,主张不要建设这一基础设施,但几年后就被证明是错误的?
这里一个有趣的比较点可能是 1800 年代铁路在世界各地的铺设方式。建设这些线路需要巨额投资,并对环境造成巨大影响,而且许多修建的线路被证明是不必要的——有时来自不同公司的多条线路服务于完全相同的路线!
由此产生的泡沫导致了几次金融崩溃,请参阅维基百科上的“1873 年恐慌” 、 “1893 年恐慌” 、 “1901 年恐慌”和“英国铁路狂热” 。他们给我们留下了大量有用的基础设施,也造成了大量破产和环境破坏。
泥水之年
2024年是“ slop ”一词成为艺术术语的一年。我在五月份写过这篇文章,扩展了@deepfates的这条推文:
实时观看“斜坡”已成为一个艺术术语。就像“垃圾邮件”成为不需要的电子邮件的术语一样,“slop”也作为不需要的人工智能生成内容的术语出现在字典中
我将该定义稍微扩展如下:
Slop描述了人工智能生成的未经请求和未经审查的内容。
《卫报》和《纽约时报》最终都引用了我关于污渍的言论。这是我在《纽约时报》上所说的话:
社会需要简洁的方式来谈论现代人工智能——无论是积极的还是消极的。 “忽略那封电子邮件,它是垃圾邮件”和“忽略那篇文章,它是垃圾邮件”都是有用的教训。
我喜欢“slop”这个词,因为它如此简洁地描述了我们不应该使用生成式人工智能的方式之一!
Slop 甚至还参与了2024 年牛津年度词汇的角逐,但最终因 Brain rot 而落败。
综合训练数据效果很好
令人惊讶的是,“模型崩溃”似乎已经深入公众意识。这在 2023 年 5 月的论文《递归的诅咒:生成数据的训练使模型忘记》中首次描述了这一点,并于 2024 年 7 月在《自然》杂志上重复了这一点,更引人注目的标题是人工智能模型在递归生成的数据上训练时崩溃了。
这个想法很诱人:当互联网上充斥着人工智能生成的废液时,模型本身就会退化,以自己的输出为食,从而导致它们不可避免的消亡!
这显然没有发生。相反,我们看到人工智能实验室越来越多地对合成内容进行训练——故意创建人工数据来帮助引导他们的模型走向正确的方向。
我见过的对此最好的描述之一来自Phi-4 技术报告,其中包括:
合成数据作为预训练的重要组成部分变得越来越普遍,Phi 系列模型一直强调合成数据的重要性。合成数据与有机数据相比,合成数据并没有用作廉价的有机数据替代品,而不是有机数据。
结构化和逐步学习。在有机数据集中,令牌之间的关系通常是复杂且间接的。可能需要许多推理步骤将当前令牌连接到下一个,这使模型从下一步的预测中有效学习。相比之下,语言模型产生的每个令牌都是由前面令牌预测的,使模型更容易遵循所得的推理模式。
另一种常见的技术是使用较大的模型来帮助创建较小,更便宜的替代方案的培训数据 – 越来越多的实验室使用的技巧。 DeepSeek V3使用了DeepSeek-R1创建的“推理”数据。 Meta的Llama 3.3 70B微调使用了超过25m的合成生成的示例。
仔细设计进入LLM的培训数据似乎是创建这些模型的整个游戏。刚抓住网络的全部刮擦并滥交将其倒入训练跑的日子早已一去不复返了。
llms以某种方式更难使用
我鼓舞了一段时间,LLM是动力用户工具 – 它们是伪装成厨刀的电锯。它们看起来很简单 – 输入聊天机器人的消息有多难? – 但实际上,您需要大量的理解和经验深度,以充分利用它们,并避免许多陷阱。
如果有的话,这个问题在2024年变得更糟。
我们已经建立了可以使用人类语言与之交谈的计算机系统,这将回答您的问题并将其正确处理! …取决于问题,以及您如何提出问题,以及它是否准确地反映在无证和秘密培训集中。
可用系统的数量已经爆炸。不同的系统具有可以应用于您的问题的不同工具 – 例如Python和JavaScript以及Web搜索和图像生成,甚至数据库查找…因此,您最好了解这些工具是什么,可以做什么以及如何判断是否LLM是否使用它们。
您知道Chatgpt现在有两种完全不同的运行Python的方式吗?
是否想建立与外部API交谈的Claude工件?您最好先了解CSP和CORS HTTP标头。
这些模型可能具有更大的功能,但是大多数限制仍然相同。 Openai的O1最终可能会(主要)计算草莓中的RS,但是它的能力仍然受到LLM的性质的限制,并且其运行的安全带所限制的限制。O1无法运行网络搜索或使用网络搜索或使用代码解释器,但是GPT -4O可以 – 都在同一chatgpt UI中。 (如果您要求,O1会假装做这些事情,从2023年初开始对URL幻觉错误进行回归)。
我们在做什么?不多。大多数用户都在深处扔进去。默认的LLM CHAT UI就像使用全新的计算机用户,将其放入Linux终端,并期望它们能弄清楚这一切。
同时,对于最终用户发展了这些事物如何运作和它们的能力,最终用户越来越普遍。我看到了很多人试图用chatgpt的屏幕截图赢得论点的例子 – 鉴于这些模型的固有不可靠性,即使他们正确提示他们,您可以让他们说任何话。
这也有一个另一方面:许多更好的知情人士完全宣誓就职,因为他们看不到任何人如何从具有如此多的缺陷的工具中受益。从LLM中获得最大收益的关键技能是学会与技术合作,这既是不可靠的,又是强大的。这是一项绝对不可思议的技巧!
这里有很多有用的教育内容的空间,但是我们需要做的比将所有这些都外包给具有轰炸的Twitter线程的AI grifters要好得多。
知识的分布非常不均匀
到目前为止,大多数人已经听说过Chatgpt。有多少人听说过克劳德?
积极遵循这些事情的人们与不遵守这些事物的99%的人之间的知识差距是巨大的。
变化的步伐也无济于事。在过去的一个月中,我们已经看到了现场接口的一般可用性,您可以将手机的相机指向某物,并用您的声音谈论它……并且可以选择假装是圣诞老人。大多数自我认证的书呆子甚至还没有尝试过。
鉴于该技术对社会的持续影响(潜力)的影响,我认为这一差距的规模并不健康。我希望看到更多的努力来改善这一点。
LLM需要更好的批评
很多人绝对讨厌这些东西。在我闲逛的某些空间中( Mastodon , Bluesky , Lobste.rs ,甚至有时甚至是黑客新闻)甚至暗示“ LLM很有用”就足以开始一场巨大的战斗。
我得到它。有很多理由不喜欢这项技术 – 环境影响,培训数据的(缺乏)伦理,缺乏可靠性,负面应用,对人们的工作的潜在影响。
LLMS绝对需要批评。我们需要讨论这些问题,找到减轻它们的方法,并帮助人们学习如何以积极应用超过负面应用的方式负责任地使用这些工具。
我喜欢对这些东西持怀疑态度的人。炒作已经震耳欲聋已有两年多了,那里有大量的蛇油和错误的信息。基于该炒作,正在做出许多非常糟糕的决定。批判是一种美德。
如果我们希望拥有决策权的人就如何应用这些工具做出良好的决定,我们首先需要确认有好的应用程序,然后帮助解释如何将它们付诸实践,同时避免许多不发音的陷阱。
(如果您仍然不认为有任何好的应用程序,我不确定为什么您在文章中的这一点!)
我认为告诉人们,整个领域都是环境灾难性的窃机器,不断地构成事情的机器正在对那些人造成伤害,无论代表多少真相。这里有真正的价值,但是达到该价值是不直觉的,需要指导。
我们这些了解这些东西的人有责任帮助其他所有人弄清楚这一点。
2024年我博客上的所有内容都标记为“ LLM”
因为我毫无疑问错过了很多东西,所以这是我在2024年写的每条长篇文章,我用LLMS标记了:
- 一月
- 第七:可以称其为人工智能
- 第9:我应该说的关于人工智能一词
- 第17:谈论氧化物和朋友上的开源LLM
- 第26: LLM 0.13:带注释的发行说明
- 二月
- 行进
- 四月
- 可能
- 六月
- 七月
- 八月
- 九月
- 十月
- 第一: OpenAi Dev Day 2024 Live Blog
- 第二: OpenAi Devday:让我们构建开发人员工具,而不是数字神
- 第15: Chatgpt会很高兴地给您写一个伪装的星座
- 第17:视频刮擦:从35秒的屏幕截图中提取JSON数据,以少于1/10的百分钟
- 第18: OpenAI聊天完成API的音频输入和输出
- 19日:在Mistral.rs上运行Llama 3.2 Vision和Phi-3.5 Vision
- 21日:我本周用克劳德文物建造的一切
- 22日:人类新计算机使用功能的初步探索
- 第24:新的Claude分析JavaScript代码执行工具的注释
- 27th:运行提示使用LLM-JQ生成和执行JQ程序
- 29th:您现在可以使用LLM在终端中对图像,音频和视频进行提示
- 30日: w̶e̶e̶e̶k̶n̶o̶t̶e̶s̶十月的月份
- 十一月
- 十二月
- 第四:新的Amazon Nova LLMS的第一印象(通过新的LLM-Begock插件)
- 第七:提示
- 9:我现在可以在笔记本电脑上运行GPT-4类模型
- 第十: Chatgpt画布现在可以提出API请求,但是很复杂
- 第11: Gemini 2.0 Flash:具有科幻流媒体模式的出色的多模式LLM
- 19日:使用UV Run和Claude Projects用一声提示来构建Python工具
- 19th: Gemini 2.0闪光灯“思维模式”
- 20日: 12月在LLMS很多
- 20日:直播博客:Openai的第12天 – “ Openai O3的早期Evals”
- 第24:尝试QVQ- QWEN的新视觉推理模型
- 31:我们在2024年学到的有关LLM的知识
(此列表使用Django SQL仪表板生成,并用Claude为我编写的SQL查询。)
标签: Google , AI , OpenAI , Generative-AI , LLM ,人类,双子座,元,推理缩放
原文: https://simonwillison.net/2024/Dec/31/llms-in-2024/#atom-everything