欢迎来到专利数据周的第 3 天! 本周我们将讨论我写的四篇相关文章,内容涉及使用专利数据来衡量创新:
如果您等不及了,所有帖子都在 New Things Under the Sun (.com) 上:只需单击上面的链接即可。 现在,进入这个由四部分组成的系列的第三部分…… 感谢您阅读《阳光下的新鲜事》!免费订阅以接收新帖子。 基于专利的研究会得到不同的结果吗?本文将随着学术文献的发展而更新;您可以在这里阅读最新版本。您可以在上面收听这篇文章,或者通过此处的大多数播客应用程序收听。 许多有关创新的社会科学研究都依赖专利作为衡量创新的一种方式。但目前尚不清楚专利是否是衡量创新的好方法。可能只有相对较少的发明获得专利保护;此外,虽然专利确实预示着许多其他创新措施,但这种联系往往是相当嘈杂的。也许基于专利的创新文献是建立在沙子的基础上的? 验证专利作为创新衡量标准的一种方法是利用这样一个事实:大量论文使用不同的数据集研究相同的现象:有些使用专利,有些则不使用。他们会得出不同的结果吗?如果是这样,那就表明使用专利数据的论文可能会发现专利的独特之处,而不是创新本身。另一方面,如果基于专利和非专利数据的分析往往会得到相似的结果,则表明专利与可用替代方案大致一样是衡量创新的良好指标。 我认为阳光下的新事物本身就可以成为解决这个特定问题的有用数据源。截至撰写本文时(2024 年 3 月),《New Things Under the Sun》由 73 篇文章组成,这些文章综合了多篇学术论文,以检验有关创新的各种狭隘主张。我统计了 37 篇讨论基于专利和非专利数据的研究的文章。 1在这 37 项分析中,基于专利的分析与非专利分析不一致的频率有多少? 我仔细查看了一下。 我从这次练习中得出的结论是,依赖专利数据的研究往往会获得与不依赖专利数据的研究相似的结果。在我看过的 31/37 (84%) 的权利要求中,我认为专利研究和非专利研究之间不存在有意义的分歧:无论问题使用哪种类型的数据,结果都大致相同持续的。在另外 6/37 (16%) 中,我认为普遍存在同意和不同意的情况。专利和非专利数据在一些重要的定性维度上存在差异,尽管即使在这些情况下我也没有发现一致的分歧。例如,在文章中, 由于知识负担,想法是否变得越来越难找到? ,非专利数据表明首次发现的年龄越来越大,但专利数据并未显示这一点。然而,专利和非专利数据都与团队规模的增加和专业化程度的提高相一致。尽管如此,由于存在一些分歧,我将这篇文章归类为展示专利和非专利证据之间的一些分歧。 实际上,我不确定我发现的专利和非专利数据之间的差异是否比您使用相同数据集探索相同现象时发现的更严重(例如,两篇论文用期刊文章数据)。也就是说,请注意我对同意和不同意的定义有点松散和主观;方向上相同,而不是数值上相同。此外,并非所有同意和分歧的范围都是超实质性的。有时,大部分证据几乎全部来自专利或几乎全部非专利数据,而来自其他来源的数据仅涵盖整个权利要求的一部分。即便如此,在许多情况下,令我感到有点惊讶的是,没有更多的分歧,因为在某些情况下,专利或非专利数据研究的创新类型之间存在重要差异。 在下一节中,我将展示我如何对这 37 篇文章进行分类,并简要描述我在哪些方面看到了一致或分歧。由于选择效应,请随意跳过它以进一步讨论此练习的潜在偏差。 新事物文章分类至少有一些分歧
没有异议
选择偏差?上述发现在使用专利数据的创新研究和不使用专利数据的创新研究之间存在广泛的一致性,它们研究密切相关的现象。但我们可能会担心:这只是选择的产物吗? 事实上,选择偏差可能存在多个层面。 第一级选择偏差是研究人员决定何时以及何时不使用专利数据。在这篇文章的练习中,我只观察研究人员认为专利是创新的适当衡量标准的案例,以及我认为这篇论文非常适合阳光下的新事物的案例。因此,“专利和非专利数据往往会得出相似的结论”这一说法仅适用于研究人员认为专利是合适数据集的一组权利要求(我认为研究人员写了一篇很好的论文)。 举一个具体的例子,我有一系列关于科学领域发表偏见的帖子——研究记录给我们提供了有偏见的证据图景,因为只有积极的发现才可以发表。这些帖子中只有一篇介绍了依赖专利数据的研究(参见上面“无分歧”列表中的第 19 条)。很少有研究人员认为用专利来研究发表偏见是合适的,这是有道理的,因为发表偏见通常被认为是学术界特有的激励措施的结果,而不是私营部门发明的结果。如果有人确实尝试研究专利中的发表偏见,他们可能会得到与使用期刊文章数据进行研究截然不同的结果。 结果是,这篇文章的分析意味着,如果您认为一篇论文是由一位优秀的研究人员撰写的,并且使用了专利数据,那么该论文的结果可能会与另一篇未使用专利数据的同一主题的论文一致。但是,如果您从一个特定的研究问题开始,这些结果并不意味着无论您是否使用专利,您都会得到相同的结果。相反,他们暗示你会这样做,如果研究人员认为专利适合解决这类研究问题。如果不是,那么这篇文章的结果并不真正适用。该主张并不是说专利在所有情况下都能很好地衡量创新。有人声称,创新研究人员在将注意力限制在专利发挥良好作用的案例上方面做得不错。 然而,除了研究人员自己是否使用专利的决定之外,还存在第二层潜在的选择偏差。发表偏见实际上可能会让我们对专利数据本身的可靠性产生偏见!假设专利确实是衡量创新的一个糟糕标准,因此它们很少能提供积极的发现。可能的情况是,我们只观察确实获得积极结果的论文,因为这些是唯一可发表的论文。如果这个问题很严重,那就意味着我夸大了使用专利数据的研究得出与不使用专利数据的论文相似的结论的程度。我认为专利数据作为数据源的流行是反对这种担忧的一些证据——如果该数据因经常导致不成比例的无效结果而闻名,那么它可能不会那么受欢迎。但这是需要牢记的事情。 最后,我对《阳光下的新事物》主题的选择并不是随机的,这可能会带来偏见。我喜欢写一些我认为重要的主题,或者我认为学术研究可以告诉我们一些有用的东西。后一种偏好可能是严重的偏见来源。在其他条件相同的情况下,我对撰写一个领域的热情不高,因为根据您使用的数据集,会出现混乱的不同发现(尽管如果我认为该主题很重要,我仍然会写一篇文章)。这可能意味着我选择的主题偏向于专利和非专利数据获得相似结果的主张,因为我最有信心社会科学研究可以告诉我们一些东西。 至少有一种方法可以评估这应该引起多大的关注。 《阳光下的新事物》是一篇活生生的文献综述。我如何选择要写的文章很可能存在选择偏差。但文章写完之后,我在选择更新哪些文章时就少了很多偏见。我这个项目的目标之一是让这些帖子提供对文献状况的诚实描述。这意味着如果新的研究结果与我已经写过的内容相矛盾,我确实觉得有义务更新这篇文章以反映这一点。这提供了一个检查最后一种形式的选择偏差的机会。如果更新往往会发现专利和非专利数据之间的分歧比原始文章更多,那就表明我对最初撰写的内容的选择夸大了专利和非专利研究的一致程度。 浏览我的时事通讯存档,我发现了 20 条对现有文章的更新,其中包括专利和非专利数据。在这些更新中,有 3 个在专利和非专利分析之间至少存在一些分歧。根据我的判断,其他 17 个人没有任何有意义的分歧。这与我在最初对 37 篇检查专利和非专利数据的文章进行调查时发现的比率非常接近。大约 15% (3/15) 的情况下,依赖专利数据的分析与不依赖专利数据的分析之间存在一些分歧,而我的主要分析中这一比例为 16%。请参阅阳光下的新事物 (.com) 附录,了解我如何对这 20 个更新中的每一个进行分类,以及对同意或分歧的性质的简短描述。 总而言之,这个练习正式化了我长期以来的直觉。我注意到,当我撰写使用专利数据的研究时,经常会遇到一些怀疑。正是出于这个原因,我经常不遗余力地尝试寻找不依赖专利数据的文章,但这些文章研究的现象与我正在撰写的基于专利的论文相同。根据我的经验,这种练习很少会让我实质性地修改我原来的观点。在学术文献中,如果使用专利数据和非专利数据研究一个问题是可能且合理的,那么根据我的经验,结果在主观上是相似的。 谢谢阅读!本系列的最后一篇决定性文章将于明天发布到 Substack – 敬请期待!与往常一样,如果您想总体讨论这篇文章或创新,让我们喝杯虚拟咖啡。请发送电子邮件至 [email protected],我们会将一些内容添加到日历中。 1
其余的阳光下的新事物文章专门研究专利数据,或专门研究非专利数据。 《阳光下的新鲜事》今天免费。但如果您喜欢这篇文章,您可以通过承诺未来订阅来告诉《天下新鲜事》,他们的文章很有价值。除非他们启用付款,否则您不会被收取费用。
© 2024马特·克兰西 |
基于专利的研究会得到不同的结果吗?
专利数据周第 3 篇文章
͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏