Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

中国公司仅花费 550 万美元训练大规模人工智能模型

Posted on 2024-12-27

china_64.png

中国人工智能初创公司 DeepSeek 发布了迄今为止最强大的开源语言模型之一,该模型使用受限的 Nvidia H800 GPU 进行训练,成本仅为 550 万美元。本周在商业许可下发布的拥有 6710 亿参数的 DeepSeek V3 在内部基准测试中的表现优于开源和闭源人工智能模型,包括 Meta 的 Llama 3.1 和 OpenAI 的 GPT-4 在编码任务上的表现。该模型在两个月内接受了 14.8 万亿个代币数据的训练。 DeepSeek V3 的大小是 Meta 的 Llama 3.1 的 1.6 倍,需要强大的计算能力才能以合理的速度运行。 OpenAI 和 Tesla 前高管 Andrej Karpathy 评论道:作为参考,这种能力水平应该需要接近 16K GPU 的集群,而今天提出的集群则更多是 100K GPU 左右。例如,Llama 3 405B 使用了 3080 万 GPU 小时,而 DeepSeek-V3 看起来是一个更强的模型,仅使用 280 万 GPU 小时(计算量减少约 11 倍)。如果该模型也通过了氛围检查(例如,LLM 竞技场排名正在进行中,到目前为止我的几次快速测试进展顺利),这将是资源限制下的研究和工程的令人印象深刻的展示。这是否意味着前沿法学硕士不需要大型 GPU 集群?不,但你必须确保你不会浪费你所拥有的东西,这看起来像是一个很好的演示,表明数据和算法还有很多工作要做。

twitter_icon_large.png facebook_icon_large.png

在 Slashdot 上阅读这个故事的更多内容。

原文: https://slashdot.org/story/24/12/27/0420235/chinese-firm-trains-massive-ai-model-for-just-55-million?utm_source=rss1.0mainlinkanon&utm_medium=feed

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • Elad Gil
  • Ellie Huxtable
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme