每当 OpenAI 削减对训练数据的检查时，就会有一家尚未推出的竞争性初创公司消亡。如果没有“安全港”，人工智能将由现有企业统治。

对训练数据“所有者”的检查正在为挑战者设置巨大的进入障碍。如果谷歌、OpenAI 和其他大型科技公司能够设定足够高的成本，它们就暗中阻止了未来的竞争。不是很开放。

模型功效大致为[技术IP/方法]*[训练数据]*[训练频率/反馈循环]。现在，我很乐意在“方法”中押注小团队的创新，但如果实验受到价值九位数的许可交易的限制，我们就会对创新造成损害。

这些商业交易可以替代不明确的版权和使用法。像《纽约时报》这样的公司愿意就这个问题提起诉讼（至少作为谈判策略）。我们的法规可能需要更新“合理使用”。我需要更多地思考我在这个问题上的立场——利用/过度重视未出于商业目的提供的数据源的公司确实欠权利所有者的。权利所有者应该能够在至少一段时间内自动设置某种保护（类似于知识共享或 robots.txt）。我不相信“如果它可以被刮掉，它就是你的使用”，我也不相信一旦你创造了某种东西，你就失去了如何将其商业化的所有权利。

我确实相信，我们需要迅速采取行动，为人工智能初创公司创建一个“安全港”，只要它们满足某些条件，就可以进行实验，而不必担心法律后果。正如我在 2023 年 4 月所写的那样，

“人工智能安全港会是什么样子？首先，“在接下来的 12 个月内，只要遵守某些不断发展的标准，任何人工智能模型的开发人员都将受到保护，免受法律责任。”例如，模型所有者必须：

透明度：对于给定的公开可用的 URL 或提交的媒体片段，查询顶级域名是否包含在模型的训练集中。简单的可见性是第一步——所有“不要在我的数据上进行训练”（又名 AI 的robots.txt ）都将从监管角度进行更多思考和权衡。
用于研究的提示日志：定期提供一定数量的具有统计意义的提示/输入日志（没有提示发起者的信息，只有提示本身），供研究人员理解、分析等。故意地、专门地针对和利用特定的版权来源，您将拥有侵权安全港。
责任：记录信任和安全协议，以允许升级违反服务条款的行为。以及关于这些问题的某种透明度统计数据的汇总。
可观察性：用于衡量结果“质量”的可审计但不公开的框架。

为了防止造成只有规模最大、资金充足的公司才能遵守的负担，AI Safe Harbor 还将免除所有尚未发布公共基础模型和/或数量少于 100,000 个的初创公司和研究人员每天的查询/提示。只要这些人真诚行事，他们就是‘安全’的。”

同时，我们的政府可以向美国初创企业提供大量数据。在这里注册、纳税、创造就业机会？您可以在这里访问大量的医疗、金融、立法数据。

去年，我们看到人工智能公司投资了数十亿美元。如果我们不希望新老板看起来像旧老板（或者在大多数情况下，是完全相同的老板），那么现在是采取行动的时候了。

原文： https://hunterwalk.com/2024/02/23/every-time-openai-cuts-a-check-for-training-data-an-unlaunched-competitive-startup-dies-without-a-safe-harbor-ai-will-be-ruled-by-incumbents/