Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

Heartex 为其专注于人工智能的开源数据标签平台筹集了 2500 万美元

Posted on 2022-05-18

Heartex 是一家自称为“开源”数据标签平台的初创公司,今天宣布在 Redpoint Ventures 领投的 A 轮融资中获得 2500 万美元。 Unusual Ventures、Bow Capital 和 Swift Ventures 也参与其中,使 Heartex 的总资本筹集到了 3000 万美元。

联合创始人兼首席执行官 Michael Malyuk 表示,新资金将用于改进 Heartex 的产品,并在年底前将公司的员工人数从 28 人扩大到 68 人。

“来自工程和机器学习背景,[Heartex 的创始团队] 知道机器学习和人工智能可以为组织带来什么价值,”Malyuk 通过电子邮件告诉 TechCrunch。 “当时,我们都在不同的公司和不同的行业工作,但由于训练数据质量差,我们在模型准确性方面面临着同样的困难。我们一致认为,唯一可行的解​​决方案是让具有领域专业知识的内部团队负责注释和管理训练数据。除了你自己的专家,谁能提供最好的结果?”

软件开发人员 Malyuk、Maxim Tkachenko 和 Nikolay Lyubimov 于 2019 年共同创立了 Heartex。Liubimov 在加入 Yandex 之前是华为的高级工程师,在那里他担任语音技术和对话系统的后端开发人员。

心电图

Heartex 的仪表板。

与有时被称为“俄罗斯谷歌”的公司 Yandex 的关系可能会让一些人感到不安——特别是考虑到欧盟指责Yandex 的新闻部门在传播克里姆林宫宣传方面发挥了相当大的作用。 Heartex 在加利福尼亚州旧金山设有办事处,但该公司的几位工程师都在前苏联格鲁吉亚共和国工作。

当被问及时,Heartex 表示它不收集任何客户数据,并开源其标签平台的核心以供检查。 “我们已经建立了一个数据架构,使客户存储中的数据保持私密,将数据平面和控制平面分开,”Malyuk 补充道。 “关于团队和他们的位置,我们是一个非常国际化的团队,目前在俄罗斯没有成员。”

撇开其地缘政治关系不谈,Heartex 旨在解决 Malyuk 认为的企业中的一个主要障碍:通过利用人工智能从数据中提取价值。越来越多的企业旨在成为“以数据为中心”——Gartner 最近报告称,在过去几年中,企业对人工智能的使用增长了 270%。但许多组织都在努力充分利用人工智能。

“在特定于算法的开发中达到了收益递减的地步,企业正在投资完善数据标签,作为其以数据为中心的战略计划的一部分,”Malyuk 说。 “这是从早期几乎完全专注于算法开发和调整的开发实践的进步。”

如果如 Malyuk 所言,数据标签越来越受到追求人工智能的公司的关注,那是因为标签是人工智能开发过程的核心部分。许多人工智能系统“学习”从人类注释者团队标记的示例中理解图像、视频、文本和音频。标签使系统能够将示例之间的关系(例如,标题“厨房水槽”:和厨房水槽的照片之间的链接)推断为系统以前从未见过的数据(例如,厨房水槽的照片)未包含在用于“教授”模型的数据中)。

问题是,并非所有标签都是平等的。标记法律合同、医学图像和科学文献等数据需要领域专业知识,而不仅仅是任何注释者都具备。而且——作为人类——注释者会犯错误。在麻省理工学院对流行的人工智能数据集的分析中,研究人员发现了错误标记的数据,例如一种狗与另一种狗混淆,以及被归类为哨子的 Ariana Grande 高音。

Malyuk 没有声称 Heartex 完全解决了这些问题。但在一次采访中,他解释说,该平台旨在支持不同人工智能用例的标签工作流程,其功能涉及数据质量管理、报告和分析。例如,使用 Heartex 的数据工程师可以查看注释者和数据审查者的姓名和电子邮件地址,这些信息与他们提供或审核的标签相关联。这有助于监控标签质量——理想情况下——在问题影响训练数据之前解决问题。

“高管层的角度非常简单。这一切都是为了提高生产 AI 模型的准确性,以实现项目的业务目标,”Malyuk 说。 “我们发现,大多数负责人工智能、机器学习和/或数据科学的高管都通过经验证实,通过对人员、流程、技术和数据进行更多战略投资,人工智能可以为跨大量不同用例的业务。我们还看到成功具有滚雪球效应。早期获得成功的团队能够更快地创建额外的高价值模型,不仅基于他们的早期学习,还基于使用生产模型产生的额外数据。”

在数据标注工具集领域,Heartex 与包括AIMMO 、 Labelbox 、 Scale AI和Snorkel AI在内的初创公司以及谷歌和亚马逊(分别通过 Google Cloud 和SageMaker提供数据标注产品)展开竞争。但Malyuk 认为,Heartex 专注于软件而非服务,这使其与众不同。与许多竞争对手不同,这家初创公司不通过其平台销售标签服务。

“由于我们构建了一个真正的横向解决方案,我们的客户来自各个行业。我们有小型初创公司作为客户,还有几家财富 100 强公司。 [我们的平台]已被全球超过 100,000 名数据科学家采用,”Malyuk 表示,但拒绝透露收入数字。 “[我们的客户] 正在建立内部数据注释团队并购买 [我们的产品],因为他们的生产 AI 模型表现不佳,并且认识到训练数据质量差是主要原因。”

原文: https://techcrunch.com/2022/05/18/2314708/

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme