几乎就在一年前,GitLab 推出了Meltano ,这是一种 ELT(提取、加载、转换)服务,现在正着眼于成为功能更全面的“DataOps”服务。当时,GitLab最初构建该服务是为了改进自己的数据生命周期平台、Alphabet 的 GV 和一些天使, 投资了 420 万美元的种子资金。今天,该公司宣布已经筹集了额外的 820 万美元,以将其种子轮融资扩大到 1240 万美元。新一轮融资由 Venrock 领投,GV、Uncorrelated Ventures、Data Tech Fund 等多家天使投资人也参与其中。
正如 Meltano 首席执行官兼 GitLab 资深人士 Douwe Maan 告诉我的那样,Meltano 背后的最初想法是建立一个端到端的数据平台,但随后团队在 2020 年至 2021 年期间将注意力再次缩小到 ELT, Singer 开源ELT工具作为其核心组件。现在,以这笔新资金为基础,并在今天推出 Meltano 2.0,这家 17 人的公司正在回归其最初的愿景,即成为一个端到端平台。
Maan 指出,当团队首次将 Meltano 推向市场时,他们意识到说服企业更换整个数据堆栈非常困难。因此,该团队决定专注于 ELT 服务,该服务可以轻松替代现有工具(如 Fivetran)。
“现在我们看到那些加入并认为 Meltano 是他们堆栈中的一个组件的人,要求我们从本质上扩展这个角色来接管所有这些不同组件的管理,而不仅仅是 Singer 连接器用于转换的 ETL 和 dbt,”Maan 解释道。 “关键是让它成为一个更容易理解和易于理解的价值主张。现在我们在 ELT 方面已经成熟,我们有权开始扩大我们希望对人们的数据工作产生的价值影响。”
显然,这种方法正在奏效,因为 Meltano 现在将 Netlify、Zapier 以及毫不奇怪的 GitLab 等公司列为其用户。尽管如此,截至目前,该公司尚未有收入,并且仍然专注于其开源产品。与许多其他开源公司一样,该计划是在未来提供该服务的托管版本。但正如 Maan 还指出的那样,虽然该公司发现其 ELT 工具适合产品市场,但现在它正在回到绘图板上,以利用其端到端平台进入同一阶段——这也是团队决定的原因延长种子轮。
许多 Meltano 的 DNA 显然受到 GitLab 的影响。例如,与它分离出来的公司一样,Meltano出版了一本带有路线图的手册,当然,它仅限于远程。就像 GitLab 一样,Meltano 团队也认为它需要与用户密切合作来构建其工具,为此,公司需要高度透明。 Meltano 最近还将其项目从 GitLab 转移到了 GitHub,以便更接近其社区成员所在的位置并能够更好地与他们互动。这将在下一次 GitLab 重聚中造成尴尬的晚餐谈话,但 GitHub 只是开源开发的事实标准。
然而,让 Meltano 与众不同的一件事是,它严重依赖第三方开源项目,而 GitLab 的重点一直是在内部构建东西。 “GitLab 是一种产品,它的所有内容都首先在内部和第一方构建,”他说。 “它有自己的 Git 托管和问题跟踪器以及 CI/CD。我们正在其下构建一个层,这些现有的、一流的第三方组件进入其中,Meltano 添加了中间组织并抽象出这些组件之间的许多差异。”
在早期,Meltano 实际上试图遵循 GitLab 模型,但现在该公司希望拥抱这些第三方产品并将它们整合到一个有凝聚力的服务中。 Maan 认为,数据堆栈已经从像 Informatica 这样的端到端工具转移到一个有很多工具非常擅长生命周期中的某个特定步骤的世界。但作为回报,这种有凝聚力的开发人员体验现在已经不复存在。
在实践中,这意味着除了 Singer 和 dbt,该公司还使用Airflow进行调度和工作流编排,使用Great Expectations进行数据质量保证,使用 Superset进行数据探索和可视化能力。
“构建和管理数据基础设施的方式与构建和管理软件应用程序完全不同,”Venrock 合伙人 Ethan Batraski 说。 “没有用于开发和测试、代码审查、单元测试或版本控制的孤立环境。对数据基础设施进行更新类似于直接在生产中进行编辑,并且通常会导致中断、数据质量问题和持续的救火。我们相信 Meltano 是构建、连接和管理构成现代数据堆栈的各种数据服务的缺失层,它允许数据团队构建新服务,类似于软件团队构建应用程序的方式。”