OpenAI 的ChatGPT的第一个开源等价物已经出现,但祝你在笔记本电脑上运行它——或者根本无法运行它。
本周,负责对包括 Meta 的Make-A-Video在内的闭源 AI 系统进行逆向工程的开发人员 Philip Wang 发布了 PaLM + RLHF,这是一种文本生成模型,其行为类似于 ChatGPT。该系统结合了来自谷歌的大型语言模型PaLM和一种称为强化学习与人类反馈(简称 RLHF)的技术,创建了一个几乎可以完成 ChatGPT 可以完成的任何任务的系统,包括起草电子邮件和建议计算机代码。
但是 PaLM + RLHF 没有经过预训练。也就是说,系统尚未接受实际工作所需的来自网络的示例数据的训练。下载 PaLM + RLHF 不会神奇地安装类似 ChatGPT 的体验——这需要编译千兆字节的文本,模型可以从中学习,并找到足够强大的硬件来处理训练工作量。
和 ChatGPT 一样,PaLM + RLHF 本质上是一种预测单词的统计工具。当从训练数据中输入大量示例时——例如来自 Reddit 的帖子、新闻文章和电子书——PaLM + RLHF 会根据周围文本的语义上下文等模式学习单词出现的可能性。
ChatGPT 和 PaLM + RLHF 在人类反馈强化学习中有共同之处,该技术旨在更好地使语言模型与用户希望他们完成的任务保持一致。 RLHF 涉及训练语言模型——在 PaLM + RLHF 的情况下,PaLM——并在包含提示(例如“向六岁儿童解释机器学习”)与人类志愿者对模型的期望配对的数据集上对其进行微调说(例如“机器学习是人工智能的一种形式……”)。然后将上述提示输入微调模型,该模型会生成多个响应,并且志愿者将所有响应从最佳到最差进行排序。最后,排名用于训练“奖励模型”,该模型采用原始模型的响应并按偏好顺序对它们进行排序,过滤出给定提示的最佳答案。
这是一个昂贵的过程,收集训练数据。培训本身并不便宜。 PaLM 有 5400 亿个参数,“参数”指的是语言模型从训练数据中学习到的部分。 2020 年的一项研究表明,开发一个只有 15 亿个参数的文本生成模型的费用高达 160 万美元。而为了训练拥有 1760 亿个参数的开源模型Bloom ,使用 384 个 Nvidia A100 GPU 耗时三个月;单个 A100 的价格为数千美元。
运行 PaLM + RLHF 大小的经过训练的模型也不是微不足道的。 Bloom需要配备大约八个 A100 GPU 的专用 PC。云替代方案价格昂贵,粗略计算发现,在单个 Amazon Web Services 上运行 OpenAI 的文本生成GPT-3 (具有大约 1750 亿个参数)的成本约为每年 87,000 美元。
AI 研究员 Sebastian Raschka 在一篇关于 PaLM + RLHF 的 LinkedIn 帖子中指出,扩大必要的开发工作流程也可能是一个挑战。 “即使有人为你提供 500 个 GPU 来训练这个模型,你仍然需要处理基础设施并拥有可以处理的软件框架,”他说。 “这显然是可能的,但目前需要付出很大的努力(当然,我们正在开发框架以使其更简单,但这仍然不是微不足道的)。”
这就是说,PaLM + RLHF 今天不会取代 ChatGPT——除非资金雄厚的企业(或个人)不厌其烦地进行培训并使其公开可用。
好消息是,其他几项复制 ChatGPT 的工作正在快速推进,其中包括一个名为CarperAI的研究小组领导的工作。 CarperAI 与开放式 AI 研究组织 EleutherAI 以及初创公司 Scale AI 和 Hugging Face 合作,计划发布第一个可立即运行的、类似 ChatGPT 的 AI 模型,该模型经过人类反馈训练。
LAION 是提供用于训练Stable Diffusion的初始数据集的非营利组织,它还率先开展了一个使用最新机器学习技术复制 ChatGPT 的项目。雄心勃勃的是,LAION 的目标是打造一个“未来的助手”——一个不仅能写电子邮件和求职信,还能“做有意义的工作、使用 API、动态研究信息等等”的助手。它处于早期阶段。但是几周前,一个包含该项目资源的 GitHub页面上线了。