阿拉伯语文本被错误编码,我如何找出要使用的编码?

时间:2015-12-22 23:21:15

标签: python encoding utf-8 arabic

我从pdfs中提取了一些阿拉伯语文本,pdfs正确显示了文本。但是,提取显然使用了不正确的编码,因此文本被表示为许多奇怪的字符。我试过utf-8,ucs-2,ansi,windows-1256,oem 720和iso arabic,但这些都不正确。

无论提取技术如何,问题仍然存在。那里的信息,(少数)拉丁字符正确显示,数字,空格等 - 只是阿拉伯字符显示为特殊的罗马字符。

我现在可以在正确的字符上手动映射每个错误字符,但必须有更好的方法。有没有办法尝试其他编码,可以显示阿拉伯字符,找出哪一个是正确的?

我得到的是这个,例如,在utf-8中:

ÊUOMOD K ÊUÐUýf √¡U bNA²Ý«≠ÍœuLÝwKŽËw$d ô«œULŽ≠5Mł≠...ež WOMOD K ‰“UM vKŽWOKOz«dÝô«WOF bLK nB wéÕ«d-ÐÊËdš¬WFÐ-√VO «Ë Æ...ežŸUD w ULýUO¼ôXOÐ...bKÐw ≠≤∂'WO³ «≠

我正在使用python,所以如果有一个很好的pythonable解决方案。但任何告诉我应该使用什么编码的东西都是受欢迎的。

非常感谢!

0 个答案:

没有答案