Question

我有一个“可搜索的pdf”，即“具有隐形但可选文本的图像文件”。（在Acrobat中打开此文件时，我会收到警告“您正在以PDF / A模式查看此文档。”）

我需要提取本文档中每个单词的边界矩形。任何建议的工具包和访问“invisi-text”单词'边界框？

的方法

我更喜欢java中的工具，但感谢任何建议。

Answer 1

Answer 2

Acrobat的javascript库看起来最直接，尤其是：

getPageNthWordQuads

适用于“可搜索的pdf”。

如果acrobat javascript库可以作为java调用使用，那会很好......

Answer 3

PdfBox和JPedal也提供文本提取方法。