使用Itextsharp读取本地化的PDF文件

时间:2012-06-05 16:08:13

标签: c# asp.net itextsharp hindi

我正在尝试使用iTextSharp阅读PDF文件。问题是当试图读取除英语(例如印地语或阿拉伯语)之外的PDF文件时,它没有得到正确的单词。

我想知道,我应该在我的系统上安装印地语或阿拉伯语字体还是需要对编码做些什么?

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
text.Append(currentText);

修改

PDF样本图像:

enter image description here

提取文字:

uxj ikfydk ifj“kn fuokZpd ukekoyh& 2011 我是“B la [; k% 1 1 1 1& &安培; &安培; &安培; ftys dk uke ftys dk uke ftys dk uke ftys dk uke %%%% 0701-ò¶âã£ûæ- 2 2 2 2& &安培; &安培; &安培; fudk fudk fudk fudk; ; ; ; dk uke dk uke dk uke dk uke %%%%  1¢AI™ 3 3 3 3& &安培; &安培; &安培; okMZ la okMZ la okMZ la okMZ la [[[[; ; ; ; k o uke k o uke k o uke k o uke %%%% 1-¯â€™â€œ¶âû§ââââââââââââââââââââââââââââââââ€â€â€â€ 4 4 4 4& &安培; &安培; &安培; Hkkx la Hkkx la Hkkx la Hkkx la [[[[; ; ; ; k k k k %%%%

1 个答案:

答案 0 :(得分:0)

  

不要使用任何类型的编码,因为你不知道是什么   编码是pdf文件有。

。 我认为它会奏效。

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
text=text+currentText;

///do what you want with text
MessageBox.Show(text);

如果仍然无法正常工作,则必须安装特定字体。