Synthesis AI是一家开发生成合成数据以训练 AI 系统的平台的初创公司,今天宣布在由 468 Capital 牵头的 A 轮融资中筹集了 1700 万美元,参与方包括 Sorenson Ventures 和 Strawberry Creek Ventures、Bee Partners、PJC、iRobot Ventures、Boom Capital 和 Kubera Venture Capital。首席执行官兼联合创始人 Yashar Behzadi 表示,收益将用于产品研发、发展公司团队和扩大研究——特别是在混合真实和合成数据领域。
随着对人工智能系统需求的增长,合成数据或人工创建而不是从现实世界中捕获的数据正在数据科学中得到更广泛的使用。好处是显而易见的:虽然收集真实世界的数据来开发人工智能系统是昂贵且劳动密集型的,但理论上可以生成无限量的合成数据来满足任何标准。例如,开发人员可以使用汽车和其他车辆的合成图像来开发一个可以区分品牌和型号的系统。
不出所料,Gartner 预测,到 2024 年,用于开发 AI 和分析项目的数据中,60% 将是合成的。一项调查称,合成数据的使用是“[AI] 中最有前途的通用技术之一”。
但是合成数据有局限性。虽然它可以模仿真实数据的许多属性,但它并不是一个精确的副本。合成数据的质量取决于创建它的算法的质量。
当然,Behzadi 断言 Synthesis 已采取有意义的步骤来克服这些技术障碍。作为 IT 政府服务公司 SAIC 的前科学家和内置 E Ink 显示屏的智能手机外壳 PopSlate 的创造者,Behzadi 于 2019 年创立了 Synthesis in AI,用他的话说,目标是“解决 AI 中的数据问题并转变[ing]计算机视觉范式。
“随着公司开发新硬件、新模型或扩大其地理和客户群,需要新的训练数据来确保模型充分发挥作用,”Behzadi 通过电子邮件告诉 TechCrunch。 “公司还在努力解决与以人为本的产品中的模型偏见和消费者隐私相关的道德问题。很明显,构建下一代计算机视觉需要一种新的范式。”
在大多数 AI 系统中,标签(可以以标题或注释的形式出现)在开发过程中用于“教”系统识别某些对象。团队通常不得不煞费苦心地为现实世界的图像添加标签,但像 Synthesis’ 这样的合成工具消除了这一需求——理论上。
Synthesis 的基于云的平台允许公司使用 AI、程序生成和 VFX 渲染技术的组合生成带有标签的合成图像数据。例如,对于开发算法以应对识别面部和监控驾驶员等挑战的客户,Synthesis 生成了大约 100,000 名跨越不同性别、年龄、BMI、肤色和种族的“合成人”。通过该平台,数据科学家可以定制化身的姿势以及他们的头发、面部毛发、服装(例如面具和眼镜),以及照明等环境因素,甚至虚拟相机的“镜头类型”。
“AR、VR 和 metaverse 领域的领先公司正在使用我们多样化的数字人类以及丰富的 3D 面部和身体地标来构建更逼真和情感化的化身,”Behzadi 说。 “[同时],我们的智能手机和消费设备客户正在使用合成数据来了解各种相机模块的性能……。我们的一些客户正在构建汽车驾驶员和乘客感应系统。他们利用车厢内数千人在各种情况和环境下的合成数据来确定最佳的摄像头位置和整体配置,以确保最佳性能。”

Synthesis AI 的数字化身之一。
Synthesis 认可的一些领域是有争议的,值得指出——比如面部识别和“情绪感应”。性别和种族偏见是面部分析中一个有据可查的现象,这归因于用于训练算法的数据集的缺陷。 (一般来说,使用具有同质面部结构和颜色的人的图像开发的算法在未接触过的“面部类型”上表现更差。)最近的研究强调了后果,表明一些生产系统对表达的情绪进行分类黑人作为更消极的人。计算机视觉驱动的工具,如 Zoom 的虚拟背景和 Twitter 的自动照片裁剪,在历史上也不喜欢肤色较深的人。
但 Behzadi 乐观地认为,Synthesis 可以通过生成数据示例来减少这些偏见——例如,不同的面孔——否则这些数据不会被收集。他还声称 Synthesis 的合成数据具有隐私和合理使用优势,主要是因为它与个人身份信息无关(尽管一些研究不同意)并且没有版权(与公共网络上的许多图像不同)。
“除了创建功能更强大的模型外,Synthesis 还通过减少偏见、保护隐私和使访问民主化来专注于人工智能的道德发展……[该平台] 以提高数量级的速度和降低的成本按需提供完美标记的数据到人类在环标记方法,”Behzadi 说。 “人工智能是由高质量的标记数据驱动的。随着人工智能领域从以模型为中心转向以数据为中心,数据成为关键的竞争驱动力。”
事实上,合成数据——取决于它的应用方式——有可能解决困扰试图实施人工智能的公司的许多发展挑战。最近,麻省理工学院的研究人员发现了一种使用合成数据对图像进行分类的方法。英伟达的研究人员已经探索了一种使用虚拟环境中创建的合成数据来训练机器人拾取物体的方法。几乎所有主要的自动驾驶汽车公司都使用模拟数据来补充他们从道路上的汽车收集的真实数据。
但同样,并非所有合成数据都是平等的。需要对数据集进行转换,以使它们可供创建合成数据的系统使用,并且在转换过程中做出的假设可能会导致不良结果。一份 STAT 报告发现,IBM 陷入困境的生命科学部门 Watson Health 经常提供糟糕且不安全的癌症治疗建议,因为该平台的模型是使用错误的合成患者记录而不是真实数据进行训练的。在 2020 年 1 月的一项研究中,亚利桑那州立大学的研究人员表明,在教授图像数据集上训练的 AI 系统可以创建高度逼真的合成面孔——但合成面孔主要是男性和白人,因为它放大了原始图像中包含的偏见数据集。
阿尔伯塔大学计算机科学助理教授 Matthew Guzdial 指出,Synthesis 自己的白皮书承认,仅在合成数据上训练模型通常会使它做得更差。
“[使用 Synthesis 的平台],我没有看到任何真正突出的东西。这是非常标准的,综合数据方面的。在某些情况下,他们能够将合成数据与真实数据结合使用,以帮助模型有效地进行泛化,”他通过电子邮件告诉 TechCrunch。 “[G] 通常我会引导我的学生远离使用合成数据,因为我发现引入偏差太容易了,这实际上会使你的最终模型变得更糟……由于合成数据是以某种算法方式(例如,使用函数)生成的,因此模型学习最简单的事情就是复制该函数的行为,而不是你试图近似的实际问题。”

图片来源:合成人工智能
数据分析平台 Apheris 的联合创始人 Robin Röhm认为,应该对每个新的合成数据集进行质量检查,以防止滥用。他说,生成和验证数据集的一方必须对如何应用数据有具体的了解,否则就有可能创建一个不准确且可能有害的系统。
Behzadi 原则上同意——但着眼于扩大 Synthesis 支持的应用程序数量,击败Mostly AI 、 Rendered.ai 、YData、 Datagen和Synthetaic等竞争对手。 Synthesis 在消费者、虚拟世界和机器人领域拥有超过 2400 万美元的融资和财富 50 强客户,计划推出针对新的和现有垂直领域的新产品,包括照片增强、电话会议、智能家居和智能助手。
“凭借无与伦比的代表性人类数据的广度和深度,Synthesis AI 已将自己确立为生产级合成数据的首选供应商……该公司已交付超过 1000 万张标记图像,以支持世界上最先进的计算机视觉公司,”贝扎迪说。 “Synthesis AI 有 20 名员工,到今年年底将扩大到 50 名。”