我想知道是否有其他人在尝试从PDF文件中提取文本时遇到了上述问题。 PDF文件中的第一行是%PDF-1.4
。该文件没有损坏,因为标准查看器可以看到它。
我使用的代码是:
PdfReader pdfReader = new PdfReader(stream);
StringWriter stringWriter = new StringWriter();
for (int i = 1; i <= pdfReader.NumberOfPages; i++)
{
// For each page we tokenise the data and then build up a string of the
// string tokens. Spaces seem to the a string token so we get them too.
PRTokeniser tokenizer = new PRTokeniser(pdfReader.GetPageContent(i));
while (true == tokenizer.NextToken())
{
if (PRTokeniser.TK_STRING == tokenizer.TokenType)
stringWriter.Write(tokenizer.StringValue);
}
}
retVal = stringWriter.ToString();
并且与其他以%PDF-1.5
开头的文档一起使用。
任何建议都将受到赞赏。