Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

LLMS PDF 转图像

Posted on 2025-05-19

LLMS PDF 转图像

受到我之前的llm-video-frames插件的启发,我认为拥有一个 LLM 插件会很棒,它可以获取 PDF 并将其转换为每页图像,这样您就可以将 PDF 输入到支持图像输入但尚不支持 PDF 的模型中。

现在应该确实这样做:

 llm 安装 llm-pdf-to-images llm -f pdf-to-images:path/to/document.pdf '总结此文档'

它在底层使用了PyMuPDF库。将 PDF 转换为图像的关键代码如下:

进口菲茨 doc = fitz.open ( “输入.pdf” ) 对于文档中的页面:     pix = page.get_pixmap ( matrix = fitz.Matrix ( 300 / 72,300 / 72 ) )     jpeg_bytes = pix.tobytes (输出= “jpg” , jpg_quality = 30 )

一旦我弄清楚了代码,我就让 o4-mini 编写插件的大部分剩余部分:

 llm -f github:simonw/llm-video-frames ' 进口菲茨 doc = fitz.open(“输入.pdf”) 对于文档中的页面: pix = page.get_pixmap(矩阵=fitz.Matrix(300/72, 300/72)) jpeg_bytes = pix.tobytes(output="jpg", jpg_quality=30) ' -s '输出 llm_pdf_to_images.py,添加一个 pdf-to-images: 片段加载器使用 fitz 将 PDF 转换为框架,如示例中的' \ -m o4-迷你

以下是全文内容——更多详情请参阅本期。

我在 GPT 4.1 mini 上测试时得到了一些奇怪的结果。我创建了一个包含两页(一页白,一页黑)的测试 PDF ,并运行了如下测试提示:

 llm -f ' pdf 到图像:空白页.pdf ' \   “描述这些图像”

第一张图片展示了一片风格化的红色枫叶,其三角形刻面呈现出几何外观。枫叶是加拿大著名的象征。

第二幅图是一只猫的简单黑色剪影,它坐着,面朝左侧。猫的尾巴卷曲在身体周围。设计简约而标志性。

我对其他提示产生了更疯狂的幻想,比如“总结这份文档”或“描述所有图表”。我在这个 Gist 里收集了这些提示。

值得庆幸的是,这种行为仅限于 GPT-4.1 mini。我升级到了完整版 GPT-4.1,得到了更合理的结果:

 llm -f'pdf -to-images:tests/blank-pages.pdf ' \   '描述这些图像' -m gpt-4.1

当然!以下是您提供的两张图片的描述:

  1. 第一张图片:这张图片完全是白色的。它看起来一片空白,没有任何可辨认的物体、文字或特征。

  2. 第二张图片:这张图片完全是黑色的。和第一张图片一样,它是空白的,没有任何可见的物体、文字或其他特殊元素。

如果您有疑问或需要特定类型的分析或修改,请告诉我!

标签: llm 、插件、 ai 、 llms 、 ai辅助编程、 pdf 、生成式人工智能、项目、 llm-幻觉

原文: https://simonwillison.net/2025/May/18/llm-pdf-to-images/#atom-everything

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme