使用PDFBox 2.0.8如何查找文档中是否存在重叠文本?

时间:2018-03-23 09:29:09

标签: pdfbox

Refer the attached image

我正在使用PDFBox 2.0.8,我能够识别字符的文本位置,但它无法确定是否存在重叠文本。示例:"超过o $ f1,000.96"。正如您所看到的那样,$符号重叠在"",但是如何预测存在重叠?

1 个答案:

答案 0 :(得分:0)

我已经找到了一个可行的解决方案来解决我报告的问题。在处理List时,我添加了以下条件来验证文本是否重叠。此解决方案可能不适用于所有类型的pdf文档,可能需要执行一些额外的工作:          if(textPositions.indexOf(position)+1<textPositions.size()){ if(position.contains(textPositions.get(textPositions.indexOf(position)+1))){overlappingTextFlag = true}}

public boolean contains(TextPosition tp2) 确定此TextPosition在逻辑上是否包含另一个(即它们重叠并且应该在彼此之上呈现)。 参数: tp2 - 要比较的另一个TestPosition 返回: 如果tp2包含在本文的边界框中,则为真。