使用iTextSharp for C#和pdfreader只返回页脚信息

时间:2014-05-22 20:14:25

标签: c# .net pdf itextsharp extraction

我有2个pdf库,我正在阅读所有文档并解析来自的特定信息。一个库处理没有问题。其他图书馆只返回所有页面的页脚如下:第1页,共6页第2页,共6页第3页,共6页第4页,共6页..... 正在运行的库有一个包含多个页面的文档。

以下是我正在使用的pdfreader。有没有人在此之前经历过这种行为,文档之间有什么不同,我应该如何处理仅返回页脚的情况。

     static string ReadPdfFile(string fileName)
     {
         string curFile = @fileName;
         // Console.WriteLine(curFile);
         // Console.WriteLine(File.Exists(curFile) ? "File exists." : "File does not exist.");

         StringBuilder text = new StringBuilder();

         if (File.Exists(curFile))
         {
             Console.Error.WriteLine("in: " + fileName);
             PdfReader pdfReader = new PdfReader(fileName);

             for (int page = 1; page <= pdfReader.NumberOfPages; page++)
             {
                 ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                 string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                 currentText =
                     Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8,
                         Encoding.Default.GetBytes(currentText)));
                 text.Append(currentText);
             }
             pdfReader.Close();
         }
         return text.ToString();
     }

0 个答案:

没有答案