标签: python regex nltk
我有以下方法可以很好地删除非空格空白字符,所以\ n,\ r \ n应用最多:
nowhitespace = re.split(r'[ \t\n\r]+', text)
但是,我还想删除标点符号和特殊字符。发现这是在线toker = RegexpTokenizer(r'((?<=[^\w\s])\w(?=[^\w\s])|(\W))+', gaps=True)这样做的,但我对正则表达式不太熟悉,无法完成这项工作。 目标是最终计算输入字符串中的所有单词,并将其存储在具有单词计数
toker = RegexpTokenizer(r'((?<=[^\w\s])\w(?=[^\w\s])|(\W))+', gaps=True)