在unicode python中替换多个字符

时间:2017-06-22 13:46:18

标签: python regex unicode nlp arabic

import re
test = unicode("شدَد", encoding='utf-8')
test = test.replace(u"\u064e", "")

这是删除一个字符的代码。我想替换以下任何unicode字符:0622,0623,0625和0627.这是用于阿拉伯语。我知道如何在多行中完成它,但有没有办法在一个行中完成?

1 个答案:

答案 0 :(得分:1)

如果要在oneliner 中替换多个字符(unicode代码点),可以使用简单的替换regex

import re
test = unicode("شدَد", encoding='utf-8')
test = re.sub(u"\u064e|\u0634", "", test,  flags=re.UNICODE)

或者,使用范围正则表达式:

test = re.sub(u"[\u064e\u0634]", "", test,  flags=re.UNICODE)