PDF使用Tika解析区域

时间:2015-07-28 07:40:49

标签: java parsing pdf itext apache-tika

我正在使用的是什么:我正在使用Apache Tika在我的Java应用程序上解析PDF。

我需要什么:我需要解析我的PDF的某个区域(即由Rectangle对象定义),就像我通常使用iText一样。

问题:是否可以使用Apache Tika解析PDF的已定义区域?怎么样?

1 个答案:

答案 0 :(得分:1)

Apache Tika将为您提供文档的简化标准化HTML表示。对于基于页面的格式,例如PDF或PPT,它会标记页面边界,但对于非基于页面的格式(例如基于运行的.doc),它不会。

您需要做的是下一步到Apache PDFBox,这是为Tika中的PDF解析器提供支持的底层库。使用PDFBox,您可以获取给定页面上对象的位置,如果它们在您想要的范围内,则计算出来并获取它们的文本。它不会像使用Apache Tika那么容易,但是为了达到这种控制水平,你需要更多地参与其中