PdfBox文本提取不能正常工作

时间:2013-11-19 09:45:59

标签: java pdf pdfbox

PDFTextStripper stripper = new PDFTextStripper();
PDDocument document = PDDocument.load(inputStream);
String text = stripper.getText(document);

提取的文字:http://pastebin.com/BXFfMy0z

问题pdf:http://www.iwb.ch/media/Unternehmen/Dokumente/inserat_leiter_pm.pdf

如何从此pdf文件中提取正确的文字?

3 个答案:

答案 0 :(得分:1)

除了@ karthik27的回答:

Adob​​e Reader在文本提取方面相当不错,因此通常可以用作指示是否可以从给定文档中提取文本。

因此,只要您有自己的文本提取无法处理的文档,请在Reader中打开它并尝试复制&从中粘贴。如果这导致垃圾,很可能是not authored properly for text extraction,无论是错误还是设计。

如果是你的文档,我会从Adobe Reader中复制和粘贴you did with PDFBox,即垃圾,获得一个半随机的隐形和特殊字符集合。因此,OCR很可能只允许从中提取文本。

答案 1 :(得分:0)

我认为问题是编码.. pdf文本以不同的格式编码..如果您右键单击文档并单击文档属性...您可以找到编码。我认为以下链接将为您提供更多解释

link1
link2

答案 2 :(得分:0)

原始文件应包含到Unicode的映射。这部分不存在,因此你在提取后得到了破碎的文字。