两年前发布的 OpenAI 的GPT-3 ( 如果有缺陷的话)非常有能力,它可能是第一个证明人工智能可以令人信服地——如果不是完美地——像人类一样写作的人。 GPT-3 的继任者,最有可能称为 GPT-4,预计将在不久的将来亮相,可能最快在 2023 年。但与此同时,OpenAI 已经悄悄推出了一系列基于“GPT- 3.5”,这是一个先前未宣布的 GPT-3 改进版本。
GPT-3.5 在周三与 ChatGPT 一起亮相,ChatGPT 是 GPT-3.5 的微调版本,本质上是一个通用聊天机器人。 ChatGPT 在昨天下午的一次公开演示中首次亮相,它可以参与一系列主题,包括编程、电视脚本和科学概念。
根据OpenAI 的说法,GPT-3.5 是在 2021 年第四季度之前发布的混合文本和代码上进行训练的。与 GPT-3 和其他文本生成 AI 一样,GPT-3.5 通过摄取大量信息来学习句子、单词和部分单词之间的关系来自网络的大量内容,包括数十万条维基百科条目、社交媒体帖子和新闻文章。
OpenAI 没有发布经过全面训练的 GPT-3.5,而是使用它创建了几个针对特定任务进行微调的系统——每个系统都可以通过 OpenAI API 获得。据实验室称,其中一个——text-davinci-003——可以处理比基于 GPT-3 构建的模型更复杂的指令,并且在长格式和“高质量”写作方面明显更好。
根据 OpenAI 数据科学家 Jan Leike 的说法,text-davinci-003 与 InstructGPT 相似但不完全相同,InstructGPT 是 OpenAI 今年早些时候发布的一系列基于 GPT-3 的模型,不太可能产生问题(例如,有毒和高度偏见) 文本,同时更符合用户的意图。 Leike 在一条推文中说,Text-davinci-003——以及 GPT-3.5——“在人类偏好评分上得分更高”,同时受到“不太严重”的限制。
该模型肯定仍然有重要的局限性!基本上我们之前博客文章中的所有内容仍然适用,但希望现在不那么严重/很少发生。 https://t.co/r8zWWYSIJ6
– 扬雷克 (@janleike) 2022 年 11 月 28 日
这似乎是轶事。内容营销平台 Pepper Content 的数据科学家 报告说,text-davinci-003“在理解请求背后的‘上下文’然后使用它来制作更好的内容方面表现得更好”,同时“幻觉”少于基于 GPT-3 的楷模。 (在涉及文本生成 AI 时,幻觉是指 AI 写出不一致的、事实上不正确的陈述。)
在为模型提供 UI 前端的 OpenAI Playground 网站上进行的一项测试中,Pepper Content 团队向 text-davinci-003 和基于 GPT-3 (text-davinci-002) 的模型提供了几个提示。鉴于“WeWork 背后的哲学是什么?”,基于 GPT-3.5 的 text-davinci-003 生成了这个:
WeWork 是一家全球工作空间提供商,认为人是任何组织中最重要的资产。 WeWork 的理念是创造一个协作环境,使人们能够以灵活高效的方式一起工作。该公司鼓励协作和生产力,同时提供舒适和鼓舞人心的空间。
WeWork 还致力于通过寻找减少环境影响的方法、提供有意义的工作经验以及促进多元化和包容性,成为一个对社会负责的组织。 WeWork 还致力于通过其独特的基于社区的计划、事件和活动为其成员创造有意义的体验。公司相信,当人们在鼓舞人心和协作的环境中一起工作时,他们可以取得更多成就并创造有意义的变化。
它并不完美——注意多余的逗号和重复。但该副本肯定比基于 GPT-3 的 text-davinci-002 生成的内容更具吸引力:
在 WeWork,我们相信开放、协作和社区。我们重新构想了工作空间的面貌,汇集了全球的创作者、企业家和初创公司社区——任何希望构建有意义的东西并改变世界的人。我们很自豪能成为您的邻居、同事和朋友。
GPT-3.5 似乎也更擅长生成博客文章。以下是 Pepper Content 团队提示 text-davinci-003 写一篇关于挑选沙发的帖子时得到的结果:
如果您想让您的绿色客厅焕然一新,那么为该空间添加最好的沙发是一个很好的开始。然而,选择完美的沙发不仅仅是找到一张看起来不错的沙发。您想要找到一件舒适且适合您的绿色客厅装饰的单品。
在这篇博客中,我们将讨论如何挑选远离绿色客厅的沙发。我们将了解可用的不同类型的沙发、选择时要考虑的设计因素,以及如何选择适合您的风格和预算的沙发。我们还将提供有关如何维护和保养您的新沙发的提示。到本博客结束时,您将获得为您的绿色客厅选择完美选择所需的所有信息。
同样,这并非万无一失。 GPT-3.5 奇怪地添加了关于“绿色客厅”的内容。但同样,GPT-3 在其生成中更基础,语法更不正确:
沙发是客厅最基本的需求之一。它不仅仅是一件家具,而且是客厅装饰的重要组成部分。那么,挑选沙发的标准是什么?如果您对此感到疑惑,请和我一起讨论沙发的不同方面,这将帮助您挑选最适合自己的沙发。
Pepper Content 以外的实验表明,GPT-3.5 的响应往往比 GPT-3 更复杂和彻底。例如,当 YouTube 频道 All About AI提示text-davinci-003 撰写有关 AI 的历史时,该模型的输出提到了该领域的关键名人,包括 Alan Turing 和 Arthur Samuelson,而 text-davinci-002 则没有。 All About AI 还发现 text-davinci-003 往往对指令有更细致的理解,例如在被要求创建视频脚本时提供标题、描述、大纲、介绍和回顾等细节。
这绝非偶然——text-davinci-003/GPT-3.5 输出的一个标志性特征是冗长。 (笔者对此表示同情。)在一项分析中,初创公司 Scale AI 的科学家发现 text-davinci-003/GPT-3.5 生成的输出比具有相同提示的 text-davinci-002/GPT-3 长大约 65%。
text-davinci-003/GPT-3.5 可能对大多数潜在用户用处不大,但仍然很有趣,它在创作歌曲、打油诗和押韵诗歌方面比其前身更出色。 Ars Technica 报道说,Y Combinator 的 Hacker News 论坛上的评论者使用 text-davinci-003 写了一首诗来解释爱因斯坦的相对论,然后以济慈的风格重写了这首诗。看:
如果你想了解爱因斯坦的思想
如果你试一试,这并不难
广义相对论是游戏的名称
空间和时间不能保持不变的地方
质量影响空间曲率
哪个影响了时间的流逝
物体的运动会受到影响
通过检测到的失真
你越接近大质量
时间似乎过得更慢
你可能离得越远
时间会加速让你看到
Scale AI 团队甚至发现 text-davinci-003/GPT-3.5 有一个米的概念,比如抑扬格五音步。看:
温柔的骏马啊,它载着我又快又好
当然
穿过绿色的田野和小路
朦胧,
我的心因与你在一起而自豪
你
就像我们骑在世界上一样新鲜地看到
风吹过我们的头发
自由的
并激起我内心深处的热情。
我的灵魂高涨,我的精神高涨,
和你一起骑行,我最真诚的朋友,是吗
你的力量和优雅,你的勇气和
你的火,
激励我们超越我们的父亲。
没有世俗的束缚可以束缚我们,只有命运,
驰骋,我们奇妙的课程创造
相关地,GPT-3.5 比 GPT-3 更机智——至少从主观的角度来看是这样。让 text-davinci-002/GPT-3“讲个笑话”通常会产生这样的结果:
为什么鸡过马路?到达另一边。
Text-davinci-003/GPT-3.5 有更聪明的回应:
问:鱼撞墙时说了什么?亚当!
问:一个海洋对另一个海洋说了什么? _ A :没什么,他们只是挥了挥手。
Scale AI 让模型以 Eminem 的风格解释 Python 代码,这是 text-davinci-002/GPT-3 根本无法完成的壮举:
哟,所以我正在浏览这个列表
我找到的每件物品
我要打印出每个字母中的每个字母
其中
狗,猫,香蕉,苹果,我要得到它们
都用这个押韵
那么为什么 GPT-3.5 在这些特定领域优于 GPT-3?如果没有来自 OpenAI 的额外细节,我们无法知道确切的答案,这些细节还没有公布; OpenAI 发言人拒绝了我们的置评请求。但可以肯定地假设 GPT-3.5 的训练方法与此有关。与 InstructGPT 一样,GPT-3.5 在人类训练师的帮助下进行了训练,这些训练师对模型早期版本对提示的响应方式进行了排名和评级。然后将此信息反馈到系统中,系统调整其答案以匹配培训师的偏好。
当然,它并不能使 GPT-3.5 免于所有语言模型最终都会陷入的陷阱。由于 GPT-3.5 仅依赖于其训练数据中的统计规律,而不是对世界的类人理解,因此用 Leike 的话来说,它仍然容易“制造一堆东西”。它对 2021 年后世界的了解也有限,因为那一年之后训练数据更加稀疏。并且可以直接规避其针对有毒输出的保护措施。
尽管如此,GPT-3.5 及其衍生模型表明,GPT-4——无论何时到来——都不一定需要大量参数才能成为当今最强大的文本生成系统的最佳选择。 (参数是模型从历史训练数据中学习的部分,本质上定义了模型在某个问题上的技能。)虽然有人预测GPT-4 将包含超过 100 万亿个参数——几乎是 GPT-3 的 600 倍——其他人则认为,语言处理中的新兴技术,如 GPT-3.5 和 InstructGPT 中的技术,将使这种巨大的跳跃变得不必要。
其中一项技术可能涉及浏览网页以获得更大的上下文,就像 Meta 命运多舛的 BlenderBot 3.0 聊天机器人。 OpenAI 的研究科学家兼联合创始人 John Shulman 告诉《麻省理工科技评论》,OpenAI 正在继续开发其去年底宣布的语言模型 WebGPT,该模型可以(通过 Bing)在网络上查找信息并提供其答案的来源。至少一位 Twitter 用户似乎发现了该功能正在接受 ChatGPT 测试的证据。
随着 GPT-3 的不断发展,OpenAI 追求低参数模型的另一个原因是:巨大的成本。 AI21 Labs 2020 年的一项研究表明,开发一个只有 15 亿个参数的文本生成模型的费用高达 160 万美元。迄今为止,OpenAI 已经从微软和其他支持者那里筹集了超过 10 亿美元, 据报道,它正在洽谈筹集更多资金。但所有投资者,无论规模多大,都希望最终能看到回报。
在对 GPT-4 充满期待的同时,OpenAI 悄悄发布了 GPT-3.5 ,作者Kyle Wiggers最初发表于TechCrunch