John Voorhees 在 MacStories 上撰文介绍了他的儿子 Finn 上周在 WWDC 期间编写的一款名为Yap 的新命令行转录工具:
途中,Finn 向我介绍了Apple Speech 框架中一个名为SpeechAnalyzer的新类及其SpeechTranscriber模块。这两个类和模块都是Apple 操作系统测试版的一部分,已于上周在 WWDC 上向开发者发布。当他告诉我他已经测试过 SpeechAnalyzer 和 SpeechTranscriber,并对它们的快速和准确度印象深刻时,我立刻竖起了耳朵。[…]
Yap 的速度最为突出。通过利用设备上的 SpeechAnalyzer 和 SpeechTranscriber,这款命令行工具处理 7GB 视频文件的速度比 MacWhisper 的 Large V3 Turbo 型号快了足足 55%,而且转录质量没有明显差异。
乍一看,0:45 和 1:41 之间的差异似乎微不足道,而且确实如此,但这仅仅是一段 34 分钟视频的结果。如果将 Yap 与使用
yt-dlp
的 Apple Developer 视频在 YouTube 上发布的时长进行比较,你会发现这可谓是一笔不小的开支。就像所有自动化功能一样,每周多次,每次将一个视频或音频片段的速度提升 55%,效果立竿见影。
苹果的 Foundation Models 无疑将成为今年 WWDC 上的黑马。这对于各种需要转录功能的用例来说都是一个好兆头,比如第三方播客播放器。