我不想从给定字符串中删除特殊字符。请告诉我如何修改我的正则表达式变量,以便它不会删除我的中文句子中的特殊字符。
例如,
这项治疗费用很高。
我不想从句子>中删除此“。”字符。我怎样才能做到这一点?
很抱歉提出这样的问题,因为我是编程新手。
def spliteKeyWord(str):
regex = r"[\u4e00-\ufaff]|[0-9]+|[a-zA-Z]+\'*[a-z]*"
matches = re.findall(regex, str, re.UNICODE)
return matches
答案 0 :(得分:1)
""角色有" \ u3002" Unicode十六进制字符代码。只需将其添加到正则表达式:
regex = r"[\u4e00-\ufaff,\u3002]|[0-9]+|[a-zA-Z]+\'*[a-z]*"