如何使用iTextSharp从PDF中提取日文文本?

时间:2014-07-02 11:23:38

标签: pdf character-encoding itextsharp

此代码返回大量\ 0 \ 0s,并从PDF中仅提取一些英语短语。不返回任何日文文本。

我正在使用Unicode编码,所以我不确定这里发生了什么。

StringBuilder text = new StringBuilder(2000);
string fullFileName = @"c:\my_japanaese_pdf.pdf";
PdfReader pdfReader = new iTextSharp.text.pdf.PdfReader(fullFileName);
for (int page = 1; page <= pdfReader.NumberOfPages; page++)
{
    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
    string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
    currentText = Encoding.Unicode.GetString(UnicodeEncoding.Convert(Encoding.Unicode, Encoding.Unicode, Encoding.Unicode.GetBytes(currentText)));
    text.Append(currentText);
}
pdfReader.Close();

(Windows 7 x64,iTextSharp 5.0.2.0)

由于

赖安

0 个答案:

没有答案