我从pdfs中提取了一些阿拉伯语文本,pdfs正确显示了文本。但是,提取显然使用了不正确的编码,因此文本被表示为许多奇怪的字符。我试过utf-8,ucs-2,ansi,windows-1256,oem 720和iso arabic,但这些都不正确。
无论提取技术如何,问题仍然存在。那里的信息,(少数)拉丁字符正确显示,数字,空格等 - 只是阿拉伯字符显示为特殊的罗马字符。
我现在可以在正确的字符上手动映射每个错误字符,但必须有更好的方法。有没有办法尝试其他编码,可以显示阿拉伯字符,找出哪一个是正确的?
我得到的是这个,例如,在utf-8中:
ÊUOMOD K ÊUÐUýf √¡U bNA²Ý«≠ÍœuLÝwKŽËw$d ô«œULŽ≠5Mł≠...ež WOMOD K ‰“UM vKŽWOKOz«dÝô«WOF bLK nB wéÕ«d-ÐÊËdš¬WFÐ-√VO «Ë Æ...ežŸUD w ULýUO¼ôXOÐ...bKÐw ≠≤∂'WO³ «≠
我正在使用python,所以如果有一个很好的pythonable解决方案。但任何告诉我应该使用什么编码的东西都是受欢迎的。
非常感谢!