我使用此函数替换特定的unicode字符
def removeTashkeel(original_text):
cleanText = re.sub(u'[\u064B-\u0652\u06D4\u0670\u0674\u06D5\u0695-\u06ED]+', '',original_text.decode("utf-8"))
return cleanText
我将此文本作为参数传递
“\ nعذراڕ。بسماللهالرحمنالرحي.عشانهوڕhttp://www.google.comعمرواحد#و@الوقت\”\ nالليهنضيعههنتحاسبعليه,:p:p:pppانامشهكملالروايةدي:D它真的是3 4真棒“
当我返回cleanText时,这就是我得到的
u'\ u \ u0639 \ u0630 \ u0631 \ u0628。\ u0628 \ u0625 \ u0645 \ u0645 \ u0644 \ u0644 \ u0647 \ u0624 \ u0624 \ u0626 \ u0626 \ u0626 \ u0626 \ u0626 \ u0626 \ u0626 \ u0626 \ u062d \ u062a \ u064a。 \ u0639 \ u0634 \ u0627 \ u0646 \ u0647 \ u0648 http://www.google.com \ u0664 \ u0645 \ u0640 \ u0640 \ u0640 \ u0640 \ u0631 \ u0648 \ u0627 \ u062d \ u062f#\ u0648 @ \ u0627 \ u0644 \ u0648 \ u0642 \ u062a” \ n \ u0627 \ u0644 \ u0644 \ u064a \ u0647 \ u0646 \ u0636 \ u064a \ u0639 \ u0647 \ u0647 \ u0646 \ u062a \ u062d \ u0627 \ u0633 \ u0628 \ u0639 \ u0644 \ u064a \ u0647 \ u060c:p:p:ppp \ u0627 \ u0646 \ u0627 \ u0645 \ u0646 \ u0643 \ u0645 \ u0644 \ u0627 \ u0644 \ u0604 \ u0627 \ u0648 \ u0628 \ u062f \ u064a:这真的是3 4很棒'
当我将线路return cleanText
更换为线
为print cleanText
我得到的结果是br>
عذراڕ。بسماللهالرحمنالرحي.عشانهوڕ:عمرواحدوالوقت 更多信息:p:p:ppp
如何使用return返回print生成的相同结果,因为即使我执行`cleanText.encode('utf-8')
,我也无法将返回的值用作普通字符串
我非常感谢你的任何帮助。