我有2个pdf库,我正在阅读所有文档并解析来自的特定信息。一个库处理没有问题。其他图书馆只返回所有页面的页脚如下:第1页,共6页第2页,共6页第3页,共6页第4页,共6页..... 正在运行的库有一个包含多个页面的文档。
以下是我正在使用的pdfreader。有没有人在此之前经历过这种行为,文档之间有什么不同,我应该如何处理仅返回页脚的情况。
static string ReadPdfFile(string fileName)
{
string curFile = @fileName;
// Console.WriteLine(curFile);
// Console.WriteLine(File.Exists(curFile) ? "File exists." : "File does not exist.");
StringBuilder text = new StringBuilder();
if (File.Exists(curFile))
{
Console.Error.WriteLine("in: " + fileName);
PdfReader pdfReader = new PdfReader(fileName);
for (int page = 1; page <= pdfReader.NumberOfPages; page++)
{
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
currentText =
Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8,
Encoding.Default.GetBytes(currentText)));
text.Append(currentText);
}
pdfReader.Close();
}
return text.ToString();
}