Question

我遇到的问题是从某些PDF文件中提取文本显示为null。代码工作正常，但我遇到了一个文件，它无法读取文本。导致问题的PDF是使用TT3字体。我想也许这就是问题，但我找不到关于这个具体问题或问题的任何问题或信息。以下代码是我目前正在做的从所有其他PDF中提取文本并且它可以工作，而不是使用TT＃字体的PDF。

iTextExtractionStrategy = pdfReaderContentParser.ProcessContent(i, new SimpleTextExtractionStrategy());

PdfText = PdfTextExtractor.GetTextFromPage(pdfReaderInput, i)

pdfText = iTextExtractionStrategy.GetResultantText();

任何关于此的信息都非常有用，或者如果其他人有同样的问题，以便我可以隔离以查看它是否是库，或者使用TT3的PDF是否已损坏。我甚至打开了不起作用的文件，并将它们保存在PDF阅读器中以查看它是否已损坏，并且没有任何改变。提前谢谢！

Answer 1

我发现除非做一些OCR类型的工作，否则你无法阅读TT字体。我所做的是开始查看元数据和评论以获得我需要的东西。显然不适用于所有情况，但在这种情况下也是如此。

在某些情况下，使用iText从PDF中提取文本为空

1 个答案: