应用错误收集

PDF文本转换导致乱码

时间：2013-09-10 19:25:38

标签： pdf itextsharp ghostscript

我使用几个不同的程序将pdf文件转换为txt文件。通常，这会产生好看的文字。有时，它没有。我有一组文件以下列方式转换：

我可以阅读的文字：您的帐户摘要

复制，粘贴到Notepad ++中： copyPasteIntoNotepadPlusPlus

Ghostscript：似乎是一个垃圾文件。已满xEF，xBF个字符。

xPdf：给我一个包含这样的文件的文件：Ç+6 3 É+C ÌÍÍÌ; ÆÁÅ ÅAÁ

似乎复制粘贴方法最接近英语，因为似乎每个字符代表一个字母字符。 SO == Y，SI == o，STX == u等等。

我想将这些pdf文件转换为英文文本。

1 个答案:

答案 0 :(得分：1)

通常，Unicode符号看起来像

xEF，xBF

。您需要从Unicode到用户友好的字母的其他转换。