我正在使用itextsharp 5.1.1提取所有文本以使用以下代码计算其中的所有单词
public static string GetTextFromAllPages(String pdfPath)
{
PdfReader reader = new PdfReader(pdfPath);
StringWriter output = new StringWriter();
for (int i = 1; i <= reader.NumberOfPages; i++)
output.WriteLine(PdfTextExtractor.GetTextFromPage(reader, i, new SimpleTextExtractionStrategy()));
return output.ToString();
}
但对于不同的语言(en,fr,..)和输入文件,它主要是从我期望的真实价值中得出错误的结果