“到 2024 年,用于开发 AI 和分析项目的数据的 60% 将是综合生成的。”这是来自 Gartner的预测,您几乎可以在每篇与合成数据相关的文章、套牌或新闻稿中找到它。
尽管它无处不在,但我们在这里重复这句话,因为它充分说明了合成数据的整个可寻址市场。
让我们打开包装:首先,描述“合成生成”的合成数据可能看起来是同义反复,但也很清楚:我们谈论的是人工/伪造和创建的数据,而不是在现实世界中收集的数据。
接下来是预测的核心——合成数据将用于大多数人工智能和分析项目的开发。由于此类项目正在增加,相关性是合成数据市场也将增长。
最后但并非最不重要的是时间范围。在我们的创业世界中,2024 年即将到来,Gartner 的人们已经有了一个更长期的预测:它的一些团队发表了一篇研究“忘记你的真实数据——合成数据是人工智能的未来”。
“人工智能的未来”是投资者喜欢听到的那种承诺,因此支票流入合成数据初创公司也就不足为奇了。
仅在 2022 年, MOSTLY AI就获得了由 Molten Ventures 领投的2500 万美元 B 轮融资; Datagen 获得了 Scale Venture Partners 领投的 5000 万美元 B轮融资, Synthesis AI 获得了 1700 万美元的 A轮融资。
已经筹集了大量资金的合成数据初创公司已经服务于广泛的行业,从银行和医疗保健到运输和零售。但他们预计用例将继续扩大,无论是在新领域还是在合成数据已经很普遍的领域。
为了了解正在发生的事情,以及如果合成数据确实得到更广泛采用会发生什么,我们在过去几个月中与多位 CEO 和 VC 进行了交谈。我们了解了合成数据公司的两大类,它们涉及哪些行业,如何调整市场规模等等。
冰山一角
Quiet Capital 的创始合伙人Astasia Myers是看好合成数据及其应用的投资者之一。她拒绝透露她是否投资了这一领域,但表示“合成数据领域有很多令人兴奋的地方。”
何为热情? “因为它使团队能够以更低的成本以安全的方式更快地访问数据,”她告诉 TechCrunch。
我们可以简单地说,合成数据的 TAM 和数据的 TAM 会收敛。 Ofir Zuk (查孔)
访问大量数据对于机器学习团队来说变得至关重要,而真实数据往往不能胜任这项任务,原因各不相同。这是合成数据初创公司希望填补的空白。
这些初创公司主要关注两种情况:结构化数据和非结构化数据。前者指的是位于表格和电子表格中的数据集,而后者指的是我们可以称之为媒体文件的数据,例如音频、文本和视觉数据。
“区分结构化和非结构化合成数据公司是有意义的,”迈尔斯说,“因为合成数据类型适用于不同的用例,因此适用于不同的买家。”
原文: https://techcrunch.com/2022/05/10/the-market-for-synthetic-data-is-bigger-than-you-think/