'tokenizer.IntValue'引发了'System.ArgumentNullException'类型的异常

时间:2014-01-06 13:11:10

标签: pdf text itextsharp extract

我想知道是否有其他人在尝试从PDF文件中提取文本时遇到了上述问题。 PDF文件中的第一行是%PDF-1.4。该文件没有损坏,因为标准查看器可以看到它。

我使用的代码是:

PdfReader pdfReader = new PdfReader(stream);
StringWriter stringWriter = new StringWriter();
for (int i = 1; i <= pdfReader.NumberOfPages; i++)
{
    // For each page we tokenise the data and then build up a string of the 
    // string tokens. Spaces seem to the a string token so we get them too.

    PRTokeniser tokenizer = new PRTokeniser(pdfReader.GetPageContent(i));
    while (true == tokenizer.NextToken())
    {
        if (PRTokeniser.TK_STRING == tokenizer.TokenType)
            stringWriter.Write(tokenizer.StringValue);
    }
}
retVal = stringWriter.ToString();

并且与其他以%PDF-1.5开头的文档一起使用。

任何建议都将受到赞赏。

0 个答案:

没有答案