包括中文句子中的特殊字符

时间:2018-05-26 21:51:30

标签: python regex python-3.x formatting

我不想从给定字符串中删除特殊字符。请告诉我如何修改我的正则表达式变量,以便它不会删除我的中文句子中的特殊字符。

例如,

这项治疗费用很高。

我不想从句子>中删除此“。”字符。我怎样才能做到这一点?

很抱歉提出这样的问题,因为我是编程新手。

  def spliteKeyWord(str):
        regex = r"[\u4e00-\ufaff]|[0-9]+|[a-zA-Z]+\'*[a-z]*"
        matches = re.findall(regex, str, re.UNICODE)
        return matches

1 个答案:

答案 0 :(得分:1)

""角色有" \ u3002" Unicode十六进制字符代码。只需将其添加到正则表达式:

regex = r"[\u4e00-\ufaff,\u3002]|[0-9]+|[a-zA-Z]+\'*[a-z]*"