对训练数据“所有者”的检查正在为挑战者设置巨大的进入障碍。如果谷歌、OpenAI 和其他大型科技公司能够设定足够高的成本,它们就暗中阻止了未来的竞争。不是很开放。
模型功效大致为[技术IP/方法]*[训练数据]*[训练频率/反馈循环]。现在,我很乐意在“方法”中押注小团队的创新,但如果实验受到价值九位数的许可交易的限制,我们就会对创新造成损害。
这些商业交易可以替代不明确的版权和使用法。像《纽约时报》这样的公司愿意就这个问题提起诉讼(至少作为谈判策略)。我们的法规可能需要更新“合理使用”。我需要更多地思考我在这个问题上的立场——利用/过度重视未出于商业目的提供的数据源的公司确实欠权利所有者的。权利所有者应该能够在至少一段时间内自动设置某种保护(类似于知识共享或 robots.txt)。我不相信“如果它可以被刮掉,它就是你的使用”,我也不相信一旦你创造了某种东西,你就失去了如何将其商业化的所有权利。
我确实相信,我们需要迅速采取行动,为人工智能初创公司创建一个“安全港”,只要它们满足某些条件,就可以进行实验,而不必担心法律后果。 正如我在 2023 年 4 月所写的那样,
“人工智能安全港会是什么样子?首先,“在接下来的 12 个月内,只要遵守某些不断发展的标准,任何人工智能模型的开发人员都将受到保护,免受法律责任。”例如,模型所有者必须:
- 透明度:对于给定的公开可用的 URL 或提交的媒体片段,查询顶级域名是否包含在模型的训练集中。简单的可见性是第一步——所有“不要在我的数据上进行训练”(又名 AI 的robots.txt )都将从监管角度进行更多思考和权衡。
- 用于研究的提示日志:定期提供一定数量的具有统计意义的提示/输入日志(没有提示发起者的信息,只有提示本身),供研究人员理解、分析等。故意地、专门地针对和利用特定的版权来源,您将拥有侵权安全港。
- 责任:记录信任和安全协议,以允许升级违反服务条款的行为。以及关于这些问题的某种透明度统计数据的汇总。
- 可观察性:用于衡量结果“质量”的可审计但不公开的框架。
为了防止造成只有规模最大、资金充足的公司才能遵守的负担,AI Safe Harbor 还将免除所有尚未发布公共基础模型和/或数量少于 100,000 个的初创公司和研究人员每天的查询/提示。只要这些人真诚行事,他们就是‘安全’的。”
同时,我们的政府可以向美国初创企业提供大量数据。在这里注册、纳税、创造就业机会?您可以在这里访问大量的医疗、金融、立法数据。
去年,我们看到人工智能公司投资了数十亿美元。如果我们不希望新老板看起来像旧老板(或者在大多数情况下,是完全相同的老板),那么现在是采取行动的时候了。