python unicode字符串匹配

时间:2016-12-01 07:07:07

标签: python regex string unicode matching

我有一个单词列表转换为unciode字符串列表,但我无法匹配字符串列表中特定单词的结束字符串,例如:

包含需要删除的字符串的列表。例如 उपलब्धियां是转换为unicode时的单词u'\u0909\u092a\u0932\u092c\u094d\u0927\u093f\u092f\u093e\u0902'

包含字符串的列表,如果在unicode中的单词末尾找到,则需要将其删除 r3_bad= [u"0900", u"0901", u"0902",u"0903"]; 在这种情况下,u0902位于错误字符串列表的末尾,因此要删除。

我试过

if re.search(r'u$[0-3]',word[-1]) :

它不会返回true 我不知道为什么。

请提前帮助谢谢。

1 个答案:

答案 0 :(得分:0)

为何选择RegEx?我认为你需要像普通字符串比较那样的东西:

s = u'\u0909\u092a\u0932\u092c\u094d\u0927\u093f\u092f\u093e\u0902'
r3_bad= [u'\u0900',u'\u0901',u'\u0902',u'\u0903']

print s # output: उपलब्धियां
if s[-1] in r3_bad: print s[:-1] # output: उपलब्धिया