将Unicode转换为普通字符串

时间:2016-09-10 12:03:23

标签: python regex unicode unicode-string

我使用此函数替换特定的unicode字符

def removeTashkeel(original_text):
cleanText = re.sub(u'[\u064B-\u0652\u06D4\u0670\u0674\u06D5\u0695-\u06ED]+', '',original_text.decode("utf-8"))    
return cleanText

我将此文本作为参数传递

“\ nعذراڕ。بسماللهالرحمنالرحي.عشانهوڕhttp://www.google.comعمرواحد#و@الوقت\”\ nالليهنضيعههنتحاسبعليه,:p:p:pppانامشهكملالروايةدي:D它真的是3 4真棒“

当我返回cleanText时,这就是我得到的
u'\ u \ u0639 \ u0630 \ u0631 \ u0628。\ u0628 \ u0625 \ u0645 \ u0645 \ u0644 \ u0644 \ u0647 \ u0624 \ u0624 \ u0626 \ u0626 \ u0626 \ u0626 \ u0626 \ u0626 \ u0626 \ u0626 \ u062d \ u062a \ u064a。 \ u0639 \ u0634 \ u0627 \ u0646 \ u0647 \ u0648 http://www.google.com \ u0664 \ u0645 \ u0640 \ u0640 \ u0640 \ u0640 \ u0631 \ u0648 \ u0627 \ u062d \ u062f#\ u0648 @ \ u0627 \ u0644 \ u0648 \ u0642 \ u062a” \ n \ u0627 \ u0644 \ u0644 \ u064a \ u0647 \ u0646 \ u0636 \ u064a \ u0639 \ u0647 \ u0647 \ u0646 \ u062a \ u062d \ u0627 \ u0633 \ u0628 \ u0639 \ u0644 \ u064a \ u0647 \ u060c:p:p:ppp \ u0627 \ u0646 \ u0627 \ u0645 \ u0646 \ u0643 \ u0645 \ u0644 \ u0627 \ u0644 \ u0604 \ u0627 \ u0648 \ u0628 \ u062f \ u064a:这真的是3 4很棒'
当我将线路return cleanText
更换为线

print cleanText

我得到的结果是br>

عذراڕ。بسماللهالرحمنالرحي.عشانهوڕ:عمرواحدوالوقت  更多信息:p:p:ppp

如何使用return返回print生成的相同结果,因为即使我执行`cleanText.encode('utf-8')

,我也无法将返回的值用作普通字符串


我非常感谢你的任何帮助。

0 个答案:

没有答案