PDF提取不完整

时间:2016-11-15 11:23:24

标签: c# pdf itext

我试图从PDF文件中提取文字:http://www.filedropper.com/copy_1,但我从网页获得的文字不到一半。 我使用的是iTextSharp:

PdfReader reader = new PdfReader(file);
string currentText =  PdfTextExtractor.GetTextFromPage(reader, 1);

我也使用了SimpleTextExtractionStrategy而不是默认的LocationTextExtractionStrategy:

PdfTextExtractor.GetTextFromPage(reader, 1, new SimpleTextExtractionStrategy())

该文件最初是从Microsoft Reporting Service(我无法访问)生成的,并且我已经提取了一个页面来测试文本提取。

任何人都可以提供帮助吗?

1 个答案:

答案 0 :(得分:-1)

试试这个: -

PdfReader reader = new PdfReader(file);
StringBuilder currentText= new StringBuilder();
for (int i= 1; i <= reader.NumberOfPages; i++)
{
    currentText.Append(PdfTextExtractor.GetTextFromPage(reader, i));
}

然后在“currentText”上执行您想要的任何操作。