Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

Dataloop 确保现金注入以扩展其数据注释工具集

Posted on 2022-11-03

数据注释,或为图像、文本、音频和其他形式的样本数据添加标签的过程,通常是开发人工智能系统的关键步骤。绝大多数系统通过将标签与特定数据样本相关联来学习进行预测,例如标题“熊”与黑熊的照片。例如,一个经过不同类型合同的许多标记示例训练的系统最终将学会区分这些合同,甚至可以推断出它以前从未见过的合同。

问题是,注释是一个手动且劳动密集型的过程,历史上一直分配给 Amazon Mechanical Turk 等平台上的零工。但随着人们对 AI 以及用于训练 AI 的数据的兴趣高涨,整个行业围绕注释和标签工具如雨后春笋般涌现。

Dataloop是众多争夺新兴市场立足点的初创公司之一,今天宣布它在由诺基亚成长合作伙伴 (NGP) Capital 和 Alpha Wave Global 牵头的 B 轮融资中筹集了 3300 万美元。 Dataloop 开发用于自动化数据准备方面的软件和服务,旨在缩短 AI 系统开发过程的时间。

“我在英特尔工作了超过 13 年,在那里我遇到了 Dataloop 的第二位联合创始人兼 CPO Avi Yashar,”Dataloop 首席执行官 Eran Shlomo 在电子邮件采访中告诉 TechCrunch。 “与 Avi 一起,我离开了英特尔并创立了 Dataloop。我们的 CBO Nir ​​[Buschi] 作为第三位联合创始人加入了我们,此前他在科技公司担任过高管职位,并在风险投资支持的初创公司中担任过业务和上市。”

Dataloop 最初专注于计算机视觉和视频分析的数据注释。但近年来,该公司为文本、音频、表单和文档数据添加了新工具,并允许客户集成内部开发的自定义数据应用程序。

Dataloop 平台最近新增的功能之一是用于非结构化数据的数据管理仪表板。 (与结构化数据或以标准化格式排列的数据相反,非结构化数据不是根据通用模型或模式组织的。)每个都提供用于数据版本控制和搜索元数据的工具,以及用于查询数据集的查询语言和可视化数据样本。

数据循环

图片来源:数据循环

“所有人工智能模型都是通过数据标记过程从人类那里学习的。标记过程本质上是一个知识编码过程,在这个过程中,人类使用正面和负面的数据示例向机器教授规则,”Shlomo 说。 “每个人工智能应用程序的主要目标是利用其客户的数据创造‘数据飞轮效应’:更好的产品带来更多的用户,带来更多的数据,进而带来更好的产品。”

Dataloop 与数据注释和标签领域的重量级人物展开竞争,其中包括Scale AI ,后者已筹集了超过 6 亿美元的风险投资。 Labelbox是另一个主要竞争对手,最近在软银牵头的一轮融资中获得了超过 1.1 亿美元的融资。除了创业领域,包括谷歌、亚马逊、雪花和微软在内的科技巨头也提供自己的数据注释服务。

Dataloop 必须做正确的事情。 Shlomo 声称该公司目前在零售、农业、机器人、自动驾驶汽车和建筑领域拥有“数百名”客户,但他拒绝透露收入数据。

一个悬而未决的问题是 Dataloop 的平台是否解决了当今数据标签中存在的一些主要挑战。去年,麻省理工学院发表的一篇论文发现,数据标记往往高度不一致,可能会损害人工智能系统的准确性。越来越多的学术研究表明,注释者在标记数据时会引入自己的偏见——例如,将非裔美国人英语(主要由美国黑人使用的现代方言)中的短语标记为比一般的美式英语对应词更具毒性。这些偏见往往以不幸的方式表现出来。考虑比白人用户更有可能禁止黑人用户的审核算法。

众所周知,数据标注员的薪水过低。据报道,为 ImageNet(最著名的开源计算机视觉库之一)贡献字幕的注释者每小时的工资中位数为 2 美元。

Shlomo 说,使用 Dataloop 的工具来影响变革的公司有责任——不一定是 Dataloop 本身。

“我们认为注释者的薪水不足是市场失灵。数据注释与软件开发有许多共同点,其中之一就是人才对生产力的影响,”Shlomo 说。 “[至于偏见,]人工智能中的偏见始于人工智能开发人员选择提出的问题以及他们向标签公司提供的说明。我们称之为“主要偏见”。例如,除非您在标签配方中询问肤色,否则您永远无法识别颜色偏差。主要的偏见问题是行业和监管机构应该解决的问题。单靠技术并不能解决问题。”

迄今为止,拥有 60 名员工的 Dataloop 已经筹集了 5000 万美元的风险投资。该公司计划在今年年底前将员工人数增加到 80 人。

Dataloop 确保现金注入以扩展其数据注释工具集,该工具集由最初发表在TechCrunch上的Kyle Wiggers

原文: https://techcrunch.com/2022/11/03/dataloop-secures-cash-infusion-to-expand-its-data-annotation-toolset/

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Anil Dash
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brandon Skerritt
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme