我使用几个不同的程序将pdf文件转换为txt文件。通常,这会产生好看的文字。有时,它没有。我有一组文件以下列方式转换:
我可以阅读的文字:您的帐户摘要
复制,粘贴到Notepad ++中:
Ghostscript:似乎是一个垃圾文件。已满xEF
,xBF
个字符。
xPdf:给我一个包含这样的文件的文件:Ç+6 3 É+C ÌÍÍÌ; ÆÁÅ ÅAÁ
似乎复制粘贴方法最接近英语,因为似乎每个字符代表一个字母字符。 SO == Y,SI == o,STX == u等等。
我想将这些pdf文件转换为英文文本。
答案 0 :(得分:1)
通常,Unicode符号看起来像
xEF,xBF
。您需要从Unicode到用户友好的字母的其他转换。