在某些情况下,使用iText从PDF中提取文本为空

时间:2014-04-08 03:42:09

标签: c# .net pdf itextsharp itext

我遇到的问题是从某些PDF文件中提取文本显示为null。代码工作正常,但我遇到了一个文件,它无法读取文本。导致问题的PDF是使用TT3字体。我想也许这就是问题,但我找不到关于这个具体问题或问题的任何问题或信息。以下代码是我目前正在做的从所有其他PDF中提取文本并且它可以工作,而不是使用TT#字体的PDF。

iTextExtractionStrategy = pdfReaderContentParser.ProcessContent(i, new SimpleTextExtractionStrategy());

PdfText = PdfTextExtractor.GetTextFromPage(pdfReaderInput, i)

pdfText = iTextExtractionStrategy.GetResultantText();

任何关于此的信息都非常有用,或者如果其他人有同样的问题,以便我可以隔离以查看它是否是库,或者使用TT3的PDF是否已损坏。我甚至打开了不起作用的文件,并将它们保存在PDF阅读器中以查看它是否已损坏,并且没有任何改变。提前谢谢!

1 个答案:

答案 0 :(得分:0)

我发现除非做一些OCR类型的工作,否则你无法阅读TT字体。我所做的是开始查看元数据和评论以获得我需要的东西。显然不适用于所有情况,但在这种情况下也是如此。