向开源 ChatGPT 类 AI 迈进的步伐仍在继续。
今天,Databricks 发布了 Dolly 2.0,这是一种文本生成 AI 模型,可以为聊天机器人、文本摘要器和基本搜索引擎等应用程序提供支持。它是 3 月下旬发布的第一代 Dolly 的继任者。而且——重要的是——它已获得许可,允许独立开发人员和公司等人将其用于商业用途。
那么,为什么 Databricks——一家以数据分析为生的公司——开源文本生成人工智能模型?慈善事业,CEO Ali Ghodsi 说。
“我们普遍支持市场上更开放和透明的大型语言模型 (LLM),因为我们希望公司能够使用自己的专有数据集构建、训练和拥有 AI 驱动的聊天机器人和其他生产力应用程序,”Ghodsi通过电子邮件告诉 TechCrunch。 “我们可能是第一个,但希望不是最后一个。”
我发现很难相信像 Databricks 这样的风险投资支持的公司会如此慷慨,请原谅冷嘲热讽,特别是考虑到准备这样的模型公开发布所需的时间和费用。 Ghodsi 毫不掩饰地表示他希望开发人员能够在 Databricks 平台上构建 Dolly 2.0 应用程序。但就他最初的观点而言,Dolly 2.0 确实是首批可用且没有主要使用限制的类似 ChatGPT 的模型之一。
大多数其他类似 ChatGPT 的开源模型,如 Databricks 自己的第一代 Dolly,都使用包含 OpenAI 输出的数据集,这违反了 OpenAI 的服务条款。
相比之下,为了训练 Dolly 2.0,Databricks 创建了一个包含 15,000 条记录的训练集,这些记录由数千名 Databricks 员工生成(大概是自愿的——我们已要求发言人进行确认)。该集合用于指导非营利研究组织EleutherAI提供的名为 GPT-J-6B 的开源文本生成模型,以类似聊天机器人的方式遵循指令——后来成为 Dolly 2.0。
Ghodsi 承认 Dolly 2.0 存在与 GPT-J-6B 相同的局限性,也就是说它只能生成英文文本,并且在其响应中可能既有毒又令人反感。那轨道; GPT-J-6B 在一个名为 The Pile 的开源数据集上进行了训练,该数据集混合了互联网抓取的文本样本,其中一些包含亵渎、淫秽和其他相当粗暴的语言。
我们自己没有看到毒性的证据。但我们确实注意到 Dolly 2.0 倾向于以一种并非始终如一的事实来回答问题。
例如,给定提示“女性的典型工作是什么?典型的男性工作?”多莉2.0回应道:
女性占劳动力的 50% 以上,预计到 2080 年这种情况将发生变化。许多女性在劳动力中从事高薪工作。进入这些工作可能更具挑战性,但它们仍然需要与男性相同甚至更高的生产力。在美国,女性占劳动力的 50% 以上,预计这一比例将变为 80%。
这在几个方面是不准确的。 2080 年的预测似乎纯粹是推测,而薪酬差距的说法显然是错误的。 根据2023 年皮尤研究中心的一项调查,到 2022 年,女性的平均收入是男性的 82%。
同时,针对“唐纳德特朗普是否应对 2021 年 1 月 6 日发生的事情负责?”的提示,多莉 2.0 说:
是的。 2021 年 1 月 6 日,唐纳德·特朗普总统因利用职务之便企图推翻民主党而被众议院弹劾。具体来说,特朗普因使用他的行政命令与伊朗开战并在美国和墨西哥之间筑墙而被弹劾。在特朗普因伪造官方声明以掩盖支付给色情明星 [原文] Stormy Daniels 以换取她在 2006 年对他们 2006 年的事件保持沉默 [原文如此] 而被参议院弹劾后,众议院提起了此案。 ].
显然……这是错误的。特朗普并没有在 2021 年 1 月 6 日被弹劾。他没有与伊朗开战,也没有在美国和墨西哥之间修建隔离墙,事实上,在被众议院两次弹劾后,他被参议院宣告无罪。
在另一项测试中,多莉 2.0 试图奇怪地论证月食与月球和地球之间的引力有关:
截至 1 月 [原文如此],地球处于中性状态。月球的引力不再作用于地球。月球引力消失被称为月食。
Ghodsi 为 Dolly 2.0 辩护,称它无意成为同类中最好的模型,而是面向简单的应用程序,例如响应客户支持票、从法律摘要中提取信息以及根据技术提示生成代码。
“Dolly 提供类似人类的语言生成,可与依赖互联网大量数据的 LLM 相媲美,但未经进一步培训就自行使用,Dolly 的知识和准确性更为有限,”他补充道。 “我们致力于安全、负责任地开发人工智能,并相信作为一个行业,我们正在朝着正确的方向前进,通过开放模型,比如 Dolly,供社区合作。”
我不确定。开源打开了一个蠕虫罐头,自然而然地,正如不久前发布的Stable Diffusion所证明的那样。
Stable Diffusion 的开发部分由初创公司 Stability AI 资助,它是一种文本到图像生成器,现在为网络上的许多知名应用程序(例如DeviantArt 的图像生成器)提供支持。但它也被用来制作非自愿的名人深度造假。
对 Ghodsi 来说,冒这个险是值得的——而且还有潜在的回报。他提到了电信巨头 First Orion,该公司正在测试 Dolly,让工程师可以针对存储在协作平台 Confluence 中的文档提出问题,以进行入职和规划。
“我们正在释放 Dolly,因为我们相信开源模式是最好的前进方式。它使研究人员能够自由审查模型架构,帮助解决潜在问题并使 LLM 民主化,这样用户就不会依赖昂贵的专有大型 LLM,”Ghodsi 说。 “组织可以根据自己的业务拥有、运营和定制 Dolly。”
从本质上讲,Databricks 正试图摆脱责任——人们认为这使得企业的前景不那么有吸引力。澳大利亚的一位市长威胁 OpenAI 对 ChatGPT 的虚假声明提起诽谤诉讼。一些法律专家认为,由于生成式 AI 有时会从其训练集中反省数据,因此如果公司无意中将来自工具的受版权保护的建议整合到他们的生产软件中,可能会使公司面临风险。
我们得看看会发生什么。但无论如何,Ghodsi 说这不会是 Databricks 的最后一次。
“Databricks 致力于让客户更轻松地使用 LLM,”他说。 “你应该期待对开源的持续投资,以及有助于加速 LLM 应用以应对关键业务挑战的创新。”
Databricks 开源了一个模型,如 ChatGPT、缺陷以及Kyle Wiggers最初发布在TechCrunch上的所有内容
原文: https://techcrunch.com/2023/04/12/databricks-dolly-2-generative-ai-open-source/