从PDF中提取马拉雅拉姆语文本

时间:2015-09-09 05:08:43

标签: c#-4.0

如何从pdf中提取马拉雅拉姆语文本。我尝试使用Itextcsharp与以下代码,但给出错误的结果

List<String> pdfText = new List<string>();  
for (int page = 1; page <= reader.NumberOfPages; page++){

ITextExtractionStrategy its = new iTextSharp.text.pdf.parser.LocationTextExtractionStrategy();
String strPage = PdfTextExtractor.GetTextFromPage(reader, page, its);

strPage = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default,
          Encoding.UTF8, Encoding.Default.GetBytes(strPage)));

pdfText.Add(strPage);

}

0 个答案:

没有答案