AI 堆栈仍在发展中。不同的公司正在尝试各种方法、工具和架构,以找出哪些方法能够大规模应用。
复杂之处在于,各种模式开始围绕着一条清晰的链条凝聚,而这条链条是多家企业独立发现的。我在 Uber、Airbnb、巴西最大的银行、可口可乐、HubSpot 以及几家欧洲航空公司都观察到了同样的架构。
为什么这个链的结构是这样的?该架构遵循特定的流程:数据 → 向量数据库 → 上下文数据库 → LLM → DSPy/GEPA/评估/实验 → RL
原始数据构成了任何人工智能系统的基础。这包括结构化数据库、非结构化文档、实时数据流和历史档案,其中包含人工智能系统需要理解和采取行动的信息。
矢量数据库将这些原始数据转换为 AI 模型能够高效处理的数学表示。它们将文本、图像和其他数据类型转换为能够捕捉语义的高维向量,从而实现快速的相似性搜索和检索。
上下文数据库存储着过去被困在人们头脑中的非结构化机构知识。Andy Triedman 在其对业务上下文层的分析中探讨了这一概念。这些数据库提供关键的业务背景、历史决策和领域专业知识,为 AI 的响应提供参考。
大型语言模型处理向量表征和上下文信息以生成响应。它们充当推理引擎,根据训练结果和提供的上下文将输入转换为连贯的输出。
DSPy 和 GEPA 代表实验层,在此对模型进行优化和改进。DSPy提供了系统性快速工程的框架,而 GEPA 则支持 AI 系统的多目标优化。
评估和实验构建了持续改进的反馈循环。团队测试不同的方法,衡量多个指标的性能,并迭代模型行为,以获得更佳结果。
强化学习利用现实世界的反馈来进一步完善模型行为,从而形成闭环。它使系统能够从部署经验中学习,并适应不断变化的需求。
这种结构的出现,是因为每个组件都解决了企业在大规模部署AI时遇到的一个特定问题。线性流程确保数据从源头高效地流向应用程序,同时在整个流程中保持质量、上下文和持续改进。
原文: https://www.tomtunguz.com/future-ai-data-architecture-enterprise-stack/