是否可以微调PDFBox的PDFTextStripper

时间:2018-12-10 10:48:43

标签: java pdf pdfbox

我想使用PDFBox的PDFTextStripper类从PDF中提取一些文本。我通过扩展PDFTextStripper并解析Stripper类提取的TextPosition实例来做到这一点。然后,我使用这些坐标来实现自定义HTML查看器。

这非常适合10个PDF中的9个。但是某些PDF会带来一些麻烦。有时PDFBox可以识别文本,但TextLocation不匹配。一个例子:

我解析提取的文本的位置并在坐标上显示一个div。 您可以假设我的计算是正确的。它们适用于我处理的所有其他PDF。

我遇到麻烦的PDF的坐标将低于实际文本:

Incorrect text

PDFBox的故障一定在某个地方,因为我可以在其他PDF查看器中正确选择文本(例如PDF.js),并且正确放置textlayer div。

否,我想知道:在PDFBox中可以配置和微调文本位置的选项有哪些?

提前谢谢!

0 个答案:

没有答案