在过去的六个月中,我们见证了 AI 的一些令人难以置信的发展。 Stable Diffusion 的发布永远地改变了艺术世界,而 ChatGPT-3 以其创作歌曲、模仿研究论文以及对常见的 Google 搜索问题提供全面且看似智能的答案的能力震撼了互联网。
生成式 AI 的这些进步进一步证明我们正处于 AI 革命的边缘。
然而,这些生成式 AI 模型中的大多数都是基础模型:大容量、无监督的学习系统,可以训练大量数据并需要数百万美元的处理能力来完成。目前,只有拥有大量 GPU 能力的资金充足的机构才有能力构建这些模型。
大多数开发推动该技术广泛采用的应用层 AI 的公司仍然依赖监督学习,使用大量标记的训练数据。尽管基础模型取得了令人瞩目的成就,但我们仍处于人工智能革命的早期阶段,许多瓶颈阻碍了应用层人工智能的扩散。
众所周知的数据标签问题的下游存在额外的数据瓶颈,这些瓶颈将阻碍后期人工智能的发展及其在生产环境中的部署。
这些问题是为什么尽管早期承诺和大量投资,但自 2014 年以来,自动驾驶汽车等技术距离实现只有一年的时间。
这些令人兴奋的概念验证模型在研究环境中的基准数据集上表现良好,但在现实世界中发布时很难准确预测。一个主要问题是该技术难以满足高风险生产环境所需的更高性能阈值,并且未能达到稳健性、可靠性和可维护性的重要基准。
例如,这些模型通常无法处理异常值和边缘情况,因此自动驾驶汽车会将自行车的倒影误认为是自行车本身。它们既不可靠也不稳健,因此机器人咖啡师每五次中有两次做出完美的卡布奇诺咖啡,但在另外三次中洒出杯子。
因此,AI 生产差距,即“那很整洁”和“那很有用”之间的差距,比 ML 工程师最初预期的要大得多,也更可怕。
与直觉相反,最好的系统也有最多的人机交互。
幸运的是,随着越来越多的 ML 工程师采用以数据为中心的 AI 开发方法,主动学习策略的实施一直在增加。最先进的公司将利用这项技术来跨越 AI 生产差距,并构建能够更快地在野外运行的模型。
什么是主动学习?
主动学习使训练监督模型成为一个迭代过程。该模型对来自大型数据集的标记数据的初始子集进行训练。然后,它会尝试根据所学知识对其余未标记数据进行预测。 ML 工程师评估模型在其预测中的确定性,并通过使用各种采集函数,可以量化通过注释其中一个未标记样本而增加的性能优势。
通过在其预测中表达不确定性,该模型正在自行决定哪些额外数据对其训练最有用。这样做时,它要求注释者仅提供该特定类型数据的更多示例,以便它可以在下一轮训练期间对该子集进行更深入的训练。可以把它想象成对学生进行测验以找出他们的知识差距在哪里。一旦你知道他们遗漏了什么问题,你就可以为他们提供教科书、演示文稿和其他材料,这样他们就可以有针对性地学习,以更好地理解该主题的特定方面。
通过主动学习,训练模型从线性过程转变为具有强大反馈回路的循环过程。
为什么成熟的公司应该准备好利用主动学习
主动学习是缩小原型生产差距和提高模型可靠性的基础。
将人工智能系统视为静态软件是一个常见的错误,但这些系统必须不断学习和发展。否则,它们会反复犯同样的错误,或者放归野外,遇到新的场景,犯下新的错误,没有机会吸取教训。
主动学习是生成式 AI 的未来:这是Ram Iyer最初发表于TechCrunch 的如何利用它