Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

DeepSeek_V3.pdf

Posted on 2024-12-27

DeepSeek_V3.pdf

在昨天神秘发布了未记录的模型权重之后,DeepSeek v3 论文(和模型卡)已经发布。

这里有很多有趣的细节。该模型对 14.8 万亿个“高质量且多样化的代币”进行了预训练(未另行记录)。

接下来,我们在 DeepSeek-V3 的基础模型上进行后训练,包括监督微调(SFT)和强化学习(RL),以使其符合人类偏好并进一步释放其潜力。在训练后阶段,我们从DeepSeek-R1系列模型中提炼推理能力,同时小心地保持模型精度和生成长度之间的平衡。

到目前为止,最有趣的细节是培训费用是多少。 DeepSeek v3 在 H800 GPU 上训练了 2,788,000 个小时,估计成本为 5,576,000 美元。相比之下,Meta AI 的 Llama 3.1 405B(比 DeepSeek v3 的 685B 参数小)的训练时间是后者的 11 倍,即 30,840,000 个 GPU 小时,同时也使用了 15 万亿个代币。

DeepSeek v3 基准测试与 Claude 3.5 Sonnet 相当,这表明现在可以以不到 600 万美元的价格训练前沿级模型(至少对于 2024 年版本的前沿)!

DeepSeek 还公布了他们的 API 定价。 2月8日起:

输入:0.27 美元/百万代币(0.07 美元/百万代币,缓存命中)
产出:1.10 美元/百万代币

Claude 3.5 Sonnet 目前的输入价格为 3 美元/百万美元,输出价格为 15 美元/百万美元,因此,如果模型确实具有同等质量,那么这将是正在进行的 LLM 定价战中的一个戏剧性的新转折。

通过@deepseek_ai

标签: deepseek 、训练数据、 llms 、 ai 、生成人工智能、 llm 定价、 llama 、元

原文: https://simonwillison.net/2024/Dec/26/deepseek-v3/#atom-everything

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme