如何将剥离的文本位置重新映射到pdf文档位置

时间:2013-07-17 12:35:14

标签: java pdf pdfbox

我使用pdfbox的PDFTextStripper从两个PDF文件中提取纯文本,然后使用一些NLP算法进行比较。该算法返回普通文本的常用段落的位置。

我想要做的是突出显示PDF中的常见段落。问题是我只在纯文本中有位置而在PDF中没有相应的位置。使用PDFTextStripper此映射将丢失。

在从PDF中剥离文本时,是否有任何解决方案/常用方法可以保留从纯文本位置到PDF文档位置的映射?如果它支持这个,我也会接受使用不同的PDF库,但我必须使用Java。

0 个答案:

没有答案