
如果你觉得阅读实体书太费劲,那么 Nick Bild 的最新项目PageParrot或许适合你。虽然人工智能如今饱受诟病,但现代多模态模型在图像解读方面却表现出色,而 PageParrot 则展现了这项技术如今已变得多么便捷。
[Nick] 非常清楚地展示了只需极少的代码就能将这些神秘的黑白符号转换成普通人能理解的声音,具体来说,只需要区区 80 行 Python 代码。诚然,其中很多行代码都用来调用库,有些则完全空白,所以从功能上来说,它甚至比这还要短。当然,整个应用程序大部分都是胶水代码,将其他人的辛勤工作缝合在一起,但它仍然很有启发性,而且玩起来很有趣。
所需硬件包括一台 Raspberry Pi Zero 2 W、一个摄像头(本例中为 USB 网络摄像头)以及一个可以将其固定在书本上方的支架。任何能够连接摄像头的 Pi 也应该可以正常工作,只需稍加配置即可。
在软件方面,[Nick] 引入了CV2 库(OpenCV 的接口)来处理摄像头接口,并将其编程为全高清分辨率。谷歌的 GenAI用于通过 API 端点与 Gemini 2.5 Flash LLM 进行接口。它只需获取一张捕获的图像并输入一个简单的提示,即可快速返回整页文本。
最后,脚本将文本传递给Piper ,Piper 会将其转换为 WAV 格式的语音文件。然后,可以通过调用控制台 aplay 工具将其播放到音频设备。在这个抽象级别上,一切都非常简单。
是的,我们知道它本质上只是在做几十年来 OCR 软件一直在做的事情。尽管如此,AI 版本却非常省力,而且准确率惊人,尤其是在处理传统 OCR 算法难以应对的特殊布局时。对这个工具进行扩展并不困难;例如,调整提示,让它将文本翻译成其他语言,可能会为一些人打开一个全新的世界。
如果您想在家玩,请直接前往PageParrot GitHub 页面并下载脚本。
如果您觉得这个设置很熟悉,那您就猜对了。 几年前我们介绍过类似的功能,使用了 Tesseract OCR,将文本输入到 Festvox 的 CMU Flite 工具中。既然我们讨论的是文本转语音,这里有一个基于 ESP32 的有趣软件音素合成器,可以重现 1980 年代独特的“说话和拼写”语音。
原文: https://hackaday.com/2025/07/06/convert-any-book-to-a-diy-audiobook/