Question

我的程序通读PDF并提取文本。当它到达空白页面时，我收到错误“System.InvalidOperationException：无法处理类型为iTextSharp.text.pdf.PdfDictionary的内容”，程序停止。

在尝试阅读之前，如何检查页面是否为空白？如果它打到空白页面，我如何继续我的程序？

代码：

for (int i = 1; i <= reader.NumberOfPages; i++)
     output.WriteLine(PdfTextExtractor.GetTextFromPage(reader, i, new SimpleTextExtractionStrategy()));

Answer 1

这样的东西？

for (int i = 1; i <= reader.NumberOfPages; i++)
{
    string tmp = PdfTextExtractor.GetTextFromPage(reader, i, 
                     new SimpleTextExtractionStrategy());
    if(!string.IsNullOrEmpty(tmp))
        output.WriteLine(tmp);
}

使用iTextSharp提取文本时如何跳过PDF的空白页？

1 个答案: