Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

关于 DeepSeek 和出口管制

Posted on 2025-01-30

关于 DeepSeek 和出口管制

Anthropic 首席执行官(之前是 OpenAI 的 GPT-2/GPT-3 开发负责人)Dario Amodei 关于 DeepSeek 的文章包含了过去几年 AI 开发的许多有趣背景。

Dario 是 2020 年原始扩展定律论文的作者之一,他详细讨论了有关扩展训练的最新想法:

该领域不断提出大大小小的想法,使事情变得更加有效或高效:它可能是对模型架构的改进(对当今所有模型使用的基本 Transformer 架构的调整),或者只是一个在底层硬件上更有效地运行模型的方法。新一代硬件也有同样的效果。这通常会改变曲线:如果创新是 2 倍“计算乘数”(CM),那么它可以让您以 500 万美元而不是 1000 万美元的价格获得编码任务的 40%;或者 5000 万美元而不是 1 亿美元的 60%,等等。

他认为 DeepSeek v3 虽然令人印象深刻,但代表了基于当前缩放定律的模型的预期演变。

[…] 即使您从表面上看 DeepSeek 的训练成本,它们充其量只是趋势,甚至可能还不是。例如,这比原始 GPT-4 到 Claude 3.5 Sonnet 推理价格差异 (10 倍) 的陡峭程度要小,并且 3.5 Sonnet 是比 GPT-4 更好的模型。所有这一切都表明 DeepSeek-V3 并不是一个独特的突破,也不是从根本上改变 LLM 经济学的东西;这是持续成本降低曲线上的预期点。这次不同的是,最先展示预期成本降低的公司是中国公司。

Dario 包含了有关 Claude 3.5 Sonnet 的详细信息,我以前从未在任何地方看到过这些信息:

  • Claude 3.5 Sonnet“训练花费了几千万美元”
  • 3.5 Sonnet “没有以任何涉及更大或更昂贵模型的方式进行训练(与一些谣言相反)” – 我见过这些谣言,它们涉及 Sonnet 是更大的、未发布的 3.5 Opus 的蒸馏版本。
  • Sonnet 的训练是在“9-12 个月前”进行的 – 大约在 2024 年 1 月到 4 月之间。如果您向 Sonnet 询问其训练截止时间,它会告诉您“2024 年 4 月” – 这是令人惊讶的,因为大概截止时间应该是在该培训期开始时?

这里的总体信息是 DeepSeek v3 的进步符合我们期望现代模型如何改进的总体趋势,包括训练成本的显着下降。

Dario 对 DeepSeek R1 印象不太好,称其“从创新或工程角度来看,不如 V3 有趣”。我喜欢这个脚注:

我怀疑 R1 受到如此多关注的主要原因之一是它是第一个向用户展示模型所展示的思想链推理的模型(OpenAI 的 o1 只显示最终答案)。 DeepSeek 表明用户觉得这很有趣。需要明确的是,这是一个用户界面选择,与模型本身无关。

文章的其余部分主张继续对中国进行芯片出口管制,其基础是,如果未来的人工智能开启“科学技术的极快进步”,美国需要先行一步,因为他担心“人工智能的军事应用”技术”。

标签: anthropic 、 openai 、 deepseek 、 ai 、 llms 、生成式 AI 、推理缩放、 o1

原文: https://simonwillison.net/2025/Jan/29/on-deepseek-and-export-controls/#atom-everything

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme