Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

奥姆OCR

Posted on 2025-02-26

奥姆OCR

Ai2 的新功能 – olmOCR 是“一款开源工具,旨在将 PDF 和其他文档高吞吐量转换为纯文本,同时保留自然阅读顺序”。

其核心是allenai/olmOCR-7B-0225-preview ,这是一种 Qwen2-VL-7B-Instruct 变体,在约 250,000 页不同 PDF 内容(扫描的和基于文本的)上进行训练,这些内容使用 GPT-4o 进行标记,并作为olmOCR-mix-0225 数据集提供。

olmocr Python 库可以在任何“最新的 NVIDIA GPU”上运行模型。我还没有设法在我自己的 Mac 上运行它 –那里有 GGUF ,但我不清楚如何通过它们运行视觉提示 – 但 Ai2 提供了一个在线演示,可以免费处理最多十页。

如果有合适的硬件,这看起来是运行大规模文档转换项目的一种非常便宜的方法:

我们使用 SGLang 仔细优化了大规模批处理的推理管道,使 olmOCR 能够以 190 美元的价格转换 100 万页 PDF,大约是使用 GPT-4o API 成本的 1/32。

技术报告 (PDF)中最有趣的想法是他们所谓的“文档锚定”:

文档锚定提取每个页面中显着元素的坐标(例如,文本块和图像),并将它们与从 PDF 二进制文件提取的原始文本一起注入。 […]

文档锚定通过 PyPDF 库处理 PDF 文档页面,以从底层 PDF 中提取页面结构的表示。页面中的所有文本块和图像都被提取,包括位置信息。从最相关的文本块和图像开始,对它们进行采样并添加到 VLM 的提示中,直至定义的最大字符限制。然后,模型在处理文档时可以使用这些额外信息。

左侧显示一个绿色标题界面,其坐标如 [150x220]√3x−1+(1+x)²、[150x180]Section 6、[150x50]Lorem ipsum dolor sat amet、[150x70]consectetur adipiscing elit、sed do、[150x90]eiusmod tempor incididunt ut、 [150x110]labore et dolore magna aliqua,[100x280]表 1,后面是带有 A、B、C、AA、BB、CC、AAA、BBB、CCC 值的网格坐标。右侧显示带有方程式、文本和表格的渲染文档。

通过卢卡·索尔代尼

标签: vision-llms 、 ai 、 qwen 、 llms 、微调、 pdf 、 generative-ai 、 ocr 、 ai2

原文: https://simonwillison.net/2025/Feb/26/olmocr/#atom-everything

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme