在.Net中提取PDF文件中所有unicode文本的最佳方法?

时间:2010-05-24 10:18:24

标签: c# pdf itextsharp

我正在使用itextsharp 5.1.1提取所有文本以使用以下代码计算其中的所有单词

public static string GetTextFromAllPages(String pdfPath)
{
    PdfReader reader = new PdfReader(pdfPath);
    StringWriter output = new StringWriter(); 
    for (int i = 1; i <= reader.NumberOfPages; i++) 
        output.WriteLine(PdfTextExtractor.GetTextFromPage(reader, i, new SimpleTextExtractionStrategy()));

    return output.ToString();
}

但对于不同的语言(en,fr,..)和输入文件,它主要是从我期望的真实价值中得出错误的结果

1 个答案:

答案 0 :(得分:1)

iTextSharp(http://sourceforge.net/projects/itextsharp/)有一个强大的API来操作pdf。