Question

我试图从PDF文件中提取文字：http://www.filedropper.com/copy_1，但我从网页获得的文字不到一半。我使用的是iTextSharp：

PdfReader reader = new PdfReader(file);
string currentText =  PdfTextExtractor.GetTextFromPage(reader, 1);

我也使用了SimpleTextExtractionStrategy而不是默认的LocationTextExtractionStrategy：

PdfTextExtractor.GetTextFromPage(reader, 1, new SimpleTextExtractionStrategy())

该文件最初是从Microsoft Reporting Service（我无法访问）生成的，并且我已经提取了一个页面来测试文本提取。

任何人都可以提供帮助吗？

Answer 1

试试这个： -

PdfReader reader = new PdfReader(file);
StringBuilder currentText= new StringBuilder();
for (int i= 1; i <= reader.NumberOfPages; i++)
{
    currentText.Append(PdfTextExtractor.GetTextFromPage(reader, i));
}

然后在“currentText”上执行您想要的任何操作。

PDF提取不完整

1 个答案: