PDFBox 2专栏问题如何检查珠子

时间:2016-10-03 15:24:24

标签: java pdf pdfbox

我有http://laws-lois.justice.gc.ca/PDF/A-8.8.pdf我正在尝试使用包含2列的PDFBox进行解析。我希望解析文本,以便将列分开,但是当我通过PDFBox运行它时,它不会分隔2列,而是将两列中的行连接在一起。

我读过https://issues.apache.org/jira/browse/PDFBOX-448,其中说某些PDF没有可以使用的文章/珠子,所以解析总是错误的。我尝试过使用stripper.setShouldSeparateByBeads(true)

如果它有珠子怎么办?除了有关PDFBox列解析的问题之外,我还没有找到任何有关此概念的阅读材料。

1 个答案:

答案 0 :(得分:1)

您可以使用PDPage.getThreadBeads()检查珠子是否在页面中。如果没有线程珠,这将返回一个空列表。

扰流警报:您的文档没有。

可以在源代码下载的DrawPrintTextLocations.java示例中找到有关如何使用它们的示例。带有珠子的PDF文件示例可以在文件PDFBOX-3110-003422-p1-beads.pdfPDFBOX-3110-poems-beads.pdf中找到,也可以在源代码下载中找到。

额外提示:看看ExtractTextByArea.java示例,这可以帮助您提取PDF文件。