PDF文本转换导致乱码

时间:2013-09-10 19:25:38

标签: pdf itextsharp ghostscript

我使用几个不同的程序将pdf文件转换为txt文件。通常,这会产生好看的文字。有时,它没有。我有一组文件以下列方式转换:

我可以阅读的文字:您的帐户摘要

复制,粘贴到Notepad ++中: copyPasteIntoNotepadPlusPlus

Ghostscript:似乎是一个垃圾文件。已满xEFxBF个字符。

xPdf:给我一个包含这样的文件的文件:Ç+6 3 É+C ÌÍÍÌ; ÆÁÅ ÅAÁ

似乎复制粘贴方法最接近英语,因为似乎每个字符代表一个字母字符。 SO == Y,SI == o,STX == u等等。

我想将这些pdf文件转换为英文文本。

1 个答案:

答案 0 :(得分:1)

通常,Unicode符号看起来像

  

xEF,xBF

。您需要从Unicode到用户友好的字母的其他转换。