从PDF手动复制和粘贴文本时,正方形/点/空白作为输出

时间:2016-09-19 08:51:49

标签: java pdfbox

我正在尝试从PDF中提取文本。首先我尝试使用PDFBox。在输出中,我发现文本的某些部分丢失了,在eclipse控制台上我收到了以下警告

在Helvetica字体中没有CID + 49(49)的Unicode映射

我想知道上面的警告意味着什么。我用Google搜索知道其含义。但我仍然不清楚。如果有人提供明确的解释,那将会非常有帮助。

对于相同的PDF,当我手动复制并粘贴PDF文本时,我得到了正方形或圆点形状。我想知道为什么会发生这种情况。请解释一下。

1 个答案:

答案 0 :(得分:0)

您可以尝试使用org.apache.pdfbox.text.PDFTextStripper包,其中包含的方法可以自动返回pdf文档中的所有可用文本。 String getText(PDDocument doc)方法可以为您提供很大帮助。点击此链接浏览API PDF TextStripper。希望它会有所帮助