我想使用PDFBox的PDFTextStripper
类从PDF中提取一些文本。我通过扩展PDFTextStripper
并解析Stripper类提取的TextPosition
实例来做到这一点。然后,我使用这些坐标来实现自定义HTML查看器。
这非常适合10个PDF中的9个。但是某些PDF会带来一些麻烦。有时PDFBox可以识别文本,但TextLocation不匹配。一个例子:
我解析提取的文本的位置并在坐标上显示一个div。 您可以假设我的计算是正确的。它们适用于我处理的所有其他PDF。
我遇到麻烦的PDF的坐标将低于实际文本:
PDFBox的故障一定在某个地方,因为我可以在其他PDF查看器中正确选择文本(例如PDF.js),并且正确放置textlayer div。
否,我想知道:在PDFBox中可以配置和微调文本位置的选项有哪些?
提前谢谢!