在其 Data + AI 峰会上,Databricks 今天发布了人们期望从公司的旗舰开发者活动中获得的必要数量的公告。其中包括 Delta Lake 2.0 的发布,其用于构建数据湖库的平台的下一个版本, MLflow 2.0 ,其用于管理机器学习管道的下一代平台,现在包括用于引导模型开发的 MLflow Pipelines 和模板,以及围绕Apache Spark数据分析引擎发布了一些公告,该引擎构成了 Databricks 平台的核心部分。
借助 Spark Connect,Databricks 今天宣布了基于DataFrame API的 Spark 新客户端和服务器接口。在 Spark 中,DataFrame 是一种分布式数据集合,它被组织成列并通过 API 以 Scala、Java、Python 或 R 等语言提供。借助 Spark Connect,Databricks 采用了这个概念,但随后将客户端和服务器解耦,从而该公司表示,这将带来更好的稳定性,并将远程连接作为内置功能。
不过,可能更令人兴奋的是 Databricks 称之为 Project Lightspeed 的项目,该公司将其描述为下一代 Spark 流引擎。 Databricks 认为,随着现在越来越多的应用程序需要流数据,对流引擎可以提供什么的要求也发生了变化。
“由于其易用性、性能、大型生态系统和开发人员社区,Spark Structured Streaming 自流媒体早期以来已被广泛采用,”该公司在今天的公告中解释道。 “考虑到这一点, Databricks将与社区合作,并鼓励参与 Project Lightspeed,以提高性能、对连接器的生态系统支持、增强使用新运营商和 API 处理数据的功能,并简化部署、运营、监控和故障排除。”
Databricks 的一位发言人告诉我,该项目将由公司流媒体主管Karthik Ramasamy领导,重点是提供更高的吞吐量、更低的延迟和更低的成本,以及扩展的连接器生态系统和额外的数据处理功能。