应用错误收集

我从pdfs中提取了一些阿拉伯语文本，pdfs正确显示了文本。但是，提取显然使用了不正确的编码，因此文本被表示为许多奇怪的字符。我试过utf-8，ucs-2，ansi，windows-1256，oem 720和iso arabic，但这些都不正确。

无论提取技术如何，问题仍然存在。那里的信息，（少数）拉丁字符正确显示，数字，空格等 - 只是阿拉伯字符显示为特殊的罗马字符。

我现在可以在正确的字符上手动映射每个错误字符，但必须有更好的方法。有没有办法尝试其他编码，可以显示阿拉伯字符，找出哪一个是正确的？

我得到的是这个，例如，在utf-8中：

ÊUOMOD K ÊUÐUýf √¡U bNA²Ý«≠ÍœuLÝwKŽËw$d ô«œULŽ≠5Mł≠...ež WOMOD K ‰“UM vKŽWOKOz«dÝô«WOF bLK nB wéÕ«d-ÐÊËdš¬WFÐ-√VO «Ë Æ...ežŸUD w ULýUO¼ôXOÐ...bKÐw ≠≤∂'WO³ «≠

我正在使用python，所以如果有一个很好的pythonable解决方案。但任何告诉我应该使用什么编码的东西都是受欢迎的。

非常感谢！

阿拉伯语文本被错误编码，我如何找出要使用的编码？

0 个答案: