使用iTextSharp提取文本时如何跳过PDF的空白页?

时间:2012-10-09 17:48:57

标签: pdf full-text-search itextsharp itext invalidoperationexception

我的程序通读PDF并提取文本。当它到达空白页面时,我收到错误“System.InvalidOperationException:无法处理类型为iTextSharp.text.pdf.PdfDictionary的内容”,程序停止。

在尝试阅读之前,如何检查页面是否为空白?如果它打到空白页面,我如何继续我的程序?

代码:

for (int i = 1; i <= reader.NumberOfPages; i++)
     output.WriteLine(PdfTextExtractor.GetTextFromPage(reader, i, new SimpleTextExtractionStrategy()));

1 个答案:

答案 0 :(得分:1)

这样的东西?

for (int i = 1; i <= reader.NumberOfPages; i++)
{
    string tmp = PdfTextExtractor.GetTextFromPage(reader, i, 
                     new SimpleTextExtractionStrategy());
    if(!string.IsNullOrEmpty(tmp))
        output.WriteLine(tmp);
}