工具包&在'searchable pdf'中提取文本边界的方法

时间:2009-02-23 21:53:12

标签: java pdf

我有一个“可搜索的pdf”,即“具有隐形但可选文本的图像文件”。 (在Acrobat中打开此文件时,我会收到警告“您正在以PDF / A模式查看此文档。”)

我需要提取本文档中每个单词的边界矩形。任何建议的工具包和访问“invisi-text”单词'边界框?

的方法

我更喜欢java中的工具,但感谢任何建议。

3 个答案:

答案 0 :(得分:0)

答案 1 :(得分:0)

Acrobat的javascript库看起来最直接,尤其是:

getPageNthWordQuads

适用于“可搜索的pdf”。

如果acrobat javascript库可以作为java调用使用,那会很好......

答案 2 :(得分:0)

PdfBox和JPedal也提供文本提取方法。