我目前正在处理python中的一些字符串,我遇到了一些涉及乱码字符和其他语言的字符串。 例如,
u'أضعت طريقي! أضعت طري asd bla bla ���� bla bla □□□□ some more english and 123123 numbers'
我想要的只是保留真正的语言(例如阿拉伯语,中文,英语和希伯来语),数字和其他utf-8字符(或者最好是al32utf8)。
因此,对于上面的示例,我想获得u'أضعت طريقي! أضعت طري asd bla bla bla bla some more english and 123123 numbers'
。
我已经尝试了很多python编码,解码,unicode函数的组合,以摆脱乱码,但一次又一次失败。
我真的很感谢你对此事的帮助:)。