Question

PDFTextStripper stripper = new PDFTextStripper();
PDDocument document = PDDocument.load(inputStream);
String text = stripper.getText(document);

如何从此pdf文件中提取正确的文字？

Answer 1

除了@ karthik27的回答：

Adobe Reader在文本提取方面相当不错，因此通常可以用作指示是否可以从给定文档中提取文本。

因此，只要您有自己的文本提取无法处理的文档，请在Reader中打开它并尝试复制＆amp;从中粘贴。如果这导致垃圾，很可能是not authored properly for text extraction，无论是错误还是设计。

如果是你的文档，我会从Adobe Reader中复制和粘贴you did with PDFBox，即垃圾，获得一个半随机的隐形和特殊字符集合。因此，OCR很可能只允许从中提取文本。

Answer 2

我认为问题是编码.. pdf文本以不同的格式编码..如果您右键单击文档并单击文档属性...您可以找到编码。我认为以下链接将为您提供更多解释

Answer 3

原始文件应包含到Unicode的映射。这部分不存在，因此你在提取后得到了破碎的文字。