Question

我正在使用itextsharp 5.1.1提取所有文本以使用以下代码计算其中的所有单词

public static string GetTextFromAllPages(String pdfPath)
{
    PdfReader reader = new PdfReader(pdfPath);
    StringWriter output = new StringWriter(); 
    for (int i = 1; i <= reader.NumberOfPages; i++) 
        output.WriteLine(PdfTextExtractor.GetTextFromPage(reader, i, new SimpleTextExtractionStrategy()));

    return output.ToString();
}

但对于不同的语言（en，fr，..）和输入文件，它主要是从我期望的真实价值中得出错误的结果

Answer 1

iTextSharp（http://sourceforge.net/projects/itextsharp/）有一个强大的API来操作pdf。

在.Net中提取PDF文件中所有unicode文本的最佳方法？

1 个答案: