Netflix 为其数据团队发明了一个新角色: 媒体 ML 数据工程师。
非结构化数据则截然不同。它具有多模态性,包含诸如嵌入、标题和转录等派生字段。它至少占全球数据的 80% ,并且对人工智能领域至关重要。
这一新职位凸显了数据生态系统中最重要的公司之一如何发展,以推动多模态数据成为核心。软件工程和数据工程正在融合。
不同的数据生产者将他们的数据发送给媒体机器学习数据工程师,然后数据工程师将其提供给分析、数据科学和应用人工智能。
这一角色的核心是一项技术:媒体数据湖。除了访问、元数据管理和数据准备之外,新的媒体数据湖还成为人工智能的重要组成部分。这一切的动力来自投资组合公司LanceDB 。
我们在 2022 年的《2023 年数据的 9 个预测》中写到了这种类型的架构,很高兴看到它在 Netflix 上实现。
对了解传统数据基础设施和多模式人工智能的工程师的需求只会增长。
像 LanceDB 这样的公司正在构建下一代数据平台来支持这一变革。如果您已准备好在这个交叉领域工作,请查看他们的空缺职位。