我有一个“可搜索的pdf”,即“具有隐形但可选文本的图像文件”。 (在Acrobat中打开此文件时,我会收到警告“您正在以PDF / A模式查看此文档。”)
我需要提取本文档中每个单词的边界矩形。任何建议的工具包和访问“invisi-text”单词'边界框?
的方法我更喜欢java中的工具,但感谢任何建议。
答案 0 :(得分:0)
查看iText库:http://www.lowagie.com/iText/
答案 1 :(得分:0)
Acrobat的javascript库看起来最直接,尤其是:
getPageNthWordQuads
适用于“可搜索的pdf”。
如果acrobat javascript库可以作为java调用使用,那会很好......
答案 2 :(得分:0)
PdfBox和JPedal也提供文本提取方法。