专利数据周第 3 篇文章

͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏

转发此电子邮件？在这里订阅以了解更多信息

基于专利的研究会得到不同的结果吗？

专利数据周第 3 篇文章

马特·克兰西

4月3日

在应用程序中阅读

听帖子·15:48

欢迎来到专利数据周的第 3 天！

本周我们将讨论我写的四篇相关文章，内容涉及使用专利数据来衡量创新：

如果您等不及了，所有帖子都在 New Things Under the Sun (.com) 上：只需单击上面的链接即可。

现在，进入这个由四部分组成的系列的第三部分……

感谢您阅读《阳光下的新鲜事》！免费订阅以接收新帖子。

承诺您的支持

基于专利的研究会得到不同的结果吗？

本文将随着学术文献的发展而更新；您可以在这里阅读最新版本。您可以在上面收听这篇文章，或者通过此处的大多数播客应用程序收听。

许多有关创新的社会科学研究都依赖专利作为衡量创新的一种方式。但目前尚不清楚专利是否是衡量创新的好方法。可能只有相对较少的发明获得专利保护；此外，虽然专利确实预示着许多其他创新措施，但这种联系往往是相当嘈杂的。也许基于专利的创新文献是建立在沙子的基础上的？

验证专利作为创新衡量标准的一种方法是利用这样一个事实：大量论文使用不同的数据集研究相同的现象：有些使用专利，有些则不使用。他们会得出不同的结果吗？如果是这样，那就表明使用专利数据的论文可能会发现专利的独特之处，而不是创新本身。另一方面，如果基于专利和非专利数据的分析往往会得到相似的结果，则表明专利与可用替代方案大致一样是衡量创新的良好指标。

我认为阳光下的新事物本身就可以成为解决这个特定问题的有用数据源。截至撰写本文时（2024 年 3 月），《New Things Under the Sun》由 73 篇文章组成，这些文章综合了多篇学术论文，以检验有关创新的各种狭隘主张。我统计了 37 篇讨论基于专利和非专利数据的研究的文章。 1在这 37 项分析中，基于专利的分析与非专利分析不一致的频率有多少？

我仔细查看了一下。

我从这次练习中得出的结论是，依赖专利数据的研究往往会获得与不依赖专利数据的研究相似的结果。在我看过的 31/37 (84%) 的权利要求中，我认为专利研究和非专利研究之间不存在有意义的分歧：无论问题使用哪种类型的数据，结果都大致相同持续的。在另外 6/37 (16%) 中，我认为普遍存在同意和不同意的情况。专利和非专利数据在一些重要的定性维度上存在差异，尽管即使在这些情况下我也没有发现一致的分歧。例如，在文章中，由于知识负担，想法是否变得越来越难找到？，非专利数据表明首次发现的年龄越来越大，但专利数据并未显示这一点。然而，专利和非专利数据都与团队规模的增加和专业化程度的提高相一致。尽管如此，由于存在一些分歧，我将这篇文章归类为展示专利和非专利证据之间的一些分歧。

实际上，我不确定我发现的专利和非专利数据之间的差异是否比您使用相同数据集探索相同现象时发现的更严重（例如，两篇论文用期刊文章数据）。也就是说，请注意我对同意和不同意的定义有点松散和主观；方向上相同，而不是数值上相同。此外，并非所有同意和分歧的范围都是超实质性的。有时，大部分证据几乎全部来自专利或几乎全部非专利数据，而来自其他来源的数据仅涵盖整个权利要求的一部分。即便如此，在许多情况下，令我感到有点惊讶的是，没有更多的分歧，因为在某些情况下，专利或非专利数据研究的创新类型之间存在重要差异。

在下一节中，我将展示我如何对这 37 篇文章进行分类，并简要描述我在哪些方面看到了一致或分歧。由于选择效应，请随意跳过它以进一步讨论此练习的潜在偏差。

新事物文章分类

至少有一些分歧

年龄和创新的影响：随着科学家或发明家年龄的增长，他们的工作受到的引用越来越少，来自少数发明家的引用也越来越少，并且从论文和专利来看，其破坏性也越来越小。但学术生命周期的生产力似乎比发明人的生产力（以专利衡量）在更长的时间内（以论文产量衡量）保持较高水平。
由于知识的负担，想法是否变得越来越难找到？首次科学发现的年龄稳步增长，而首次专利的年龄则有所上升，但随后下降。然而，专利和学术论文都发现团队规模和专业化程度正在上升。
独立发明有多普遍？来自专利和论文的证据表明，同时独立发现的情况相当罕见；但专利干扰听证会所暗示的比率比论文低几个数量级。与此同时，来自专利和论文的证据表明，多项独立发现更有可能产生更有价值的研究想法。
创新（大部分）变得更加困难：从大多数衡量标准来看，相同水平的研究工作产生的改进越来越少。对于原始专利数量而言并非如此，但对于特别创新专利的一项衡量标准却如此。
教授创新创业：一项针对两个特定创业培训项目的研究着眼于成功创业的许多不同指标。这两个项目对参与者的专利申请都没有产生统计上的显着影响。对于其中一项计划，这与其对任何其他措施没有影响是一致的；另一方面，它对成功创业的一些衡量标准产生了积极影响，但对专利和其他一些衡量标准没有产生积极影响。
最好的新想法结合了不同的旧想法：包含不寻常的想法组合的专利和论文具有更高的影响力。有一些证据表明，影响力最高的论文也会产生一些比专利更传统的组合。

没有异议

邻近知识是有用的：来自农业技术的专利证据和各种非专利证据表明，知识溢出往往来自不太“远”的领域。
年龄和创新的本质：来自学术界和专利权人的证据与年长的创新者在工作中依赖旧的想法是一致的。衡量一篇论文或专利的颠覆性的指标也会随着作者年龄的增长而下降。
公共资助研发高回报的一个例子：将勉强赢得 SBIR 资助的公司与勉强失败的公司进行比较，获胜者获得了更多专利，而且在各种其他商业成功指标上也做得更好。
大公司有不同的激励措施：分析专利文本表明，大公司拥有更多的工艺专利；调查数据还表明，规模较大的公司在流程研发上投入的比例更大。
建立新的研究领域：以研究主题为中心的科学家不太可能产生高被引用的研究；跳槽到新技术领域工作的发明家其专利被引用的次数较少。
学术引用是否衡量新想法的影响力？专利与政府政策文件一样，极有可能引用在学术界被高度引用的学术研究。
创业精神具有传染性：根据创业活动来衡量，接触过创业同行的人更有可能成为企业家。拥有专利的顾问的博士后也更有可能为自己申请专利。
免费知识和创新：专利包含本地（实体）图书馆提供的信息。同样，化学学术文章包含维基百科上免费提供的信息。
性别和研究内容：来自专利和学术界的证据表明，女性更有可能研究与其性别相关的医疗问题。还有一些证据表明，随着性别代表性的提高，男性也更有可能参与这些主题的研究。
地理和研究内容：来自专利和学术界的证据表明，人们更有可能进行与当地问题和优先事项相关的创新。
高被引用的创新需要一个团队：学术论文、专利和软件，随着参与其创作的团队的增加，引用次数都会增加。大团队的漫画书也更有价值。其他相关变量也与论文和专利的团队规模相关。
从科学到技术需要多长时间？相对基础科学的资助与随后的生产率提高之间的统计相关性在 20 年左右最强。提交专利申请和引用学术文章之间的典型间隔同样很长。
如何阻碍技术进步：降低研究工作回报的政策会对边缘参与者产生不成比例的影响，无论是在学术环境中，创新是通过论文来衡量的，还是在工业环境中，创新是通过专利或新药品来衡量的。
引进知识：来自专利和学术论文引用的证据表明，移民将原籍国普遍存在的知识传播给接收国的非移民。
移民的创新者：当美国或欧盟的发明家移民时，他们的专利数量就会增加。同样，当科学家搬到资源丰富的地方进行科学研究时，他们的学术生产力就会提高（从许多方面来看）。
技术进步是否正在放缓？美国农业案例：专利数据表明农业发明基本上建立在农业部门之外发现的知识之上； TFP 数据表明，农业生产率增长跟随其他经济部门的生产率增长，但存在长期滞后。
知识溢出是一件大事：专利、学术论文（以及资助它们的拨款）和研发支出的数据都表明知识溢出的定量影响很大。
更多的科学带来更多的创新：各种专利数据记录了科学研究的供给和后续技术进步之间的联系。科学出版物的供应量与相关部门的工业生产率之间也存在一定的相关性，尽管存在很大的滞后性。
发表或灭亡与科学质量：在结构生物学学术系统之外工作的研究人员往往质量更高，保持蛋白质的引用潜力不变。专利证据表明，与学术研究相比，工业界更喜欢工业研究，并保持发现的性质不变。
推出更节能的汽车：燃油价格和燃油效率标准的上涨往往会提高汽车的燃油效率，无论是通过专利还是车辆的实际特性来衡量。
远程突破：无论我们衡量专利权人之间还是学术论文合著者之间的合作，创新者越来越多地进行远程合作。远程团队通常比同地团队的破坏性/新颖性要低，但随着时间的推移，无论是通过论文还是专利来衡量，这种影响已经减弱甚至逆转。
科学变得越来越难：几十年来，专利和学术论文引用最近学术成果的可能性越来越小。
科学善于创造有用的知识：在一个领域被高度引用的论文往往在其他领域也被高度引用。被经济学家高度引用的经济学论文很可能会在经济学之外被引用；被其他学者高度引用的学术作品很可能被专利引用。
教师影响力和创新：各种研究表明，学生会采纳导师的兴趣，其中兴趣可以通过多种不同的方式来衡量，包括寻求专利和其他非专利措施的兴趣。
互联网、邮政服务和获取遥远的想法：当同一家公司的两个地理位置相距较远的机构之间通过文本进行通信的成本因为可以访问互联网而下降时，他们更有可能引用彼此的专利或进行合作。由于邮政改革，英国文本通信的成本下降，遥远的地区更有可能引用彼此的科学著作。
公司规模和创新的性质：随着公司规模的扩大，无论发明是用专利还是替代品来衡量，他们每研发美元获得的发明就越少。同样，无论我们用基于专利的代理还是其他代理来衡量，他们确实获得的发明也往往更具增量性。
交通和创新：当各地区通过交通网络更好地连接时，这些地区的发明家和科学家之间的合作就会增加，这可以通过专利或论文来衡量。
同行评审知道什么？一项针对 NIH 同行评审分数的研究发现，分数越高的资助往往会带来更多的出版物、更多的引用和更多的专利。
当极端需要是发明之母时：Covid-19 刺激了减轻其影响的新技术发明的激增，无论是医疗治疗（通过新的临床试验衡量）还是远程工作技术的专利申请。
当技术恶化时：无论是通过与医疗技术相对应的专利份额，还是通过公共资助的健康和环境研究支出份额来衡量，研发的更大份额都集中在健康和安全上。
为什么邻近很重要：你认识谁：专利引用中的证据与这样一个故事是一致的：距离并不是与你有关系的人分享知识的强烈障碍，而是阻碍建立这种关系。这与学术界的证据是一致的。

选择偏差？

上述发现在使用专利数据的创新研究和不使用专利数据的创新研究之间存在广泛的一致性，它们研究密切相关的现象。但我们可能会担心：这只是选择的产物吗？

事实上，选择偏差可能存在多个层面。

第一级选择偏差是研究人员决定何时以及何时不使用专利数据。在这篇文章的练习中，我只观察研究人员认为专利是创新的适当衡量标准的案例，以及我认为这篇论文非常适合阳光下的新事物的案例。因此，“专利和非专利数据往往会得出相似的结论”这一说法仅适用于研究人员认为专利是合适数据集的一组权利要求（我认为研究人员写了一篇很好的论文）。

举一个具体的例子，我有一系列关于科学领域发表偏见的帖子——研究记录给我们提供了有偏见的证据图景，因为只有积极的发现才可以发表。这些帖子中只有一篇介绍了依赖专利数据的研究（参见上面“无分歧”列表中的第 19 条）。很少有研究人员认为用专利来研究发表偏见是合适的，这是有道理的，因为发表偏见通常被认为是学术界特有的激励措施的结果，而不是私营部门发明的结果。如果有人确实尝试研究专利中的发表偏见，他们可能会得到与使用期刊文章数据进行研究截然不同的结果。

结果是，这篇文章的分析意味着，如果您认为一篇论文是由一位优秀的研究人员撰写的，并且使用了专利数据，那么该论文的结果可能会与另一篇未使用专利数据的同一主题的论文一致。但是，如果您从一个特定的研究问题开始，这些结果并不意味着无论您是否使用专利，您都会得到相同的结果。相反，他们暗示你会这样做，如果研究人员认为专利适合解决这类研究问题。如果不是，那么这篇文章的结果并不真正适用。该主张并不是说专利在所有情况下都能很好地衡量创新。有人声称，创新研究人员在将注意力限制在专利发挥良好作用的案例上方面做得不错。

然而，除了研究人员自己是否使用专利的决定之外，还存在第二层潜在的选择偏差。发表偏见实际上可能会让我们对专利数据本身的可靠性产生偏见！假设专利确实是衡量创新的一个糟糕标准，因此它们很少能提供积极的发现。可能的情况是，我们只观察确实获得积极结果的论文，因为这些是唯一可发表的论文。如果这个问题很严重，那就意味着我夸大了使用专利数据的研究得出与不使用专利数据的论文相似的结论的程度。我认为专利数据作为数据源的流行是反对这种担忧的一些证据——如果该数据因经常导致不成比例的无效结果而闻名，那么它可能不会那么受欢迎。但这是需要牢记的事情。

最后，我对《阳光下的新事物》主题的选择并不是随机的，这可能会带来偏见。我喜欢写一些我认为重要的主题，或者我认为学术研究可以告诉我们一些有用的东西。后一种偏好可能是严重的偏见来源。在其他条件相同的情况下，我对撰写一个领域的热情不高，因为根据您使用的数据集，会出现混乱的不同发现（尽管如果我认为该主题很重要，我仍然会写一篇文章）。这可能意味着我选择的主题偏向于专利和非专利数据获得相似结果的主张，因为我最有信心社会科学研究可以告诉我们一些东西。

至少有一种方法可以评估这应该引起多大的关注。《阳光下的新事物》是一篇活生生的文献综述。我如何选择要写的文章很可能存在选择偏差。但文章写完之后，我在选择更新哪些文章时就少了很多偏见。我这个项目的目标之一是让这些帖子提供对文献状况的诚实描述。这意味着如果新的研究结果与我已经写过的内容相矛盾，我确实觉得有义务更新这篇文章以反映这一点。这提供了一个检查最后一种形式的选择偏差的机会。如果更新往往会发现专利和非专利数据之间的分歧比原始文章更多，那就表明我对最初撰写的内容的选择夸大了专利和非专利研究的一致程度。

浏览我的时事通讯存档，我发现了 20 条对现有文章的更新，其中包括专利和非专利数据。在这些更新中，有 3 个在专利和非专利分析之间至少存在一些分歧。根据我的判断，其他 17 个人没有任何有意义的分歧。这与我在最初对 37 篇检查专利和非专利数据的文章进行调查时发现的比率非常接近。大约 15% (3/15) 的情况下，依赖专利数据的分析与不依赖专利数据的分析之间存在一些分歧，而我的主要分析中这一比例为 16%。请参阅阳光下的新事物 (.com) 附录，了解我如何对这 20 个更新中的每一个进行分类，以及对同意或分歧的性质的简短描述。

总而言之，这个练习正式化了我长期以来的直觉。我注意到，当我撰写使用专利数据的研究时，经常会遇到一些怀疑。正是出于这个原因，我经常不遗余力地尝试寻找不依赖专利数据的文章，但这些文章研究的现象与我正在撰写的基于专利的论文相同。根据我的经验，这种练习很少会让我实质性地修改我原来的观点。在学术文献中，如果使用专利数据和非专利数据研究一个问题是可能且合理的，那么根据我的经验，结果在主观上是相似的。

谢谢阅读！本系列的最后一篇决定性文章将于明天发布到 Substack – 敬请期待！与往常一样，如果您想总体讨论这篇文章或创新，让我们喝杯虚拟咖啡。请发送电子邮件至 [email protected]，我们会将一些内容添加到日历中。

其余的阳光下的新事物文章专门研究专利数据，或专门研究非专利数据。

《阳光下的新鲜事》今天免费。但如果您喜欢这篇文章，您可以通过承诺未来订阅来告诉《天下新鲜事》，他们的文章很有价值。除非他们启用付款，否则您不会被收取费用。

承诺您的支持

喜欢

重新堆叠

原文： https://www.inoreader.com/article/3a9c6e74c767a406