Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

Nvidia 发布海量 AI 开放欧洲语言数据集和工具

Posted on 2025-08-24

ai_64.png

据 SiliconANGLE 本周报道,“地球上 7000 多种语言中,只有极少数得到了人工智能模型的支持”。因此,英伟达宣布推出“一个庞大的全新 AI 就绪数据集和模型,以支持开发高质量的欧洲语言 AI ​​翻译”。这个名为 Granary 的新数据集是一个庞大的多语言音频开源语料库,包含超过一百万小时的音频,以及 65 万小时的语音识别和 35 万小时的语音翻译。英伟达的语音 AI 团队与卡内基梅隆大学和布鲁诺·凯斯勒基金会的研究人员合作,将未标记的音频和公开演讲数据处理成可用于 AI 训练的信息……Granary 包含 25 种欧洲语言,几乎涵盖了欧盟所有 24 种官方语言,此外还有俄语和乌克兰语。该数据集还包含数据有限的语言,例如克罗地亚语、爱沙尼亚语和马耳他语。这一点至关重要,因为提供这些代表性不足的人工注释数据集将使开发人员能够为讲这些语言的受众创建更具包容性的语音技术,同时在他们的人工智能应用程序和模型中使用更少的训练数据……该团队在他们的研究论文中证明,与其他流行数据集相比,Granary 只需要大约一半的训练数据就能实现自动语音识别和自动语音翻译的高精度。除了 Granary,Nvidia 还发布了新的 Canary 和 Parakeet 模型来展示可以用数据集创建什么……新的 Canary 在相当宽松的许可下可用于商业和研究用途,将 Canary 目前的语言从 4 种扩展到 25 种。它提供的转录和翻译质量可与三倍大的模型相媲美,同时推理速度提高 10 倍。在 10 亿个参数的帮助下,它可以在大多数下一代旗舰智能手机上完全在设备上运行,以即时进行语音翻译。

twitter_icon_large.png facebook_icon_large.png

在 Slashdot 上阅读更多内容。

原文: https://hardware.slashdot.org/story/25/08/23/1731237/nvidia-release-massive-ai-ready-open-european-language-dataset-and-tools?utm_source=rss1.0mainlinkanon&utm_medium=feed

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brandon Skerritt
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme