正则表达式在标点符号和空格之间进行分割,括号内除外

时间:2019-06-30 19:34:36

标签: python regex

我正在尝试标记字符串,所有标点符号都变成其自己的标记。但是,我不需要在方括号内分割文本。

例句: 我想保留[InsideBrackets]和[Inside Brackets]在一起,同时删除其他标点符号。

过一会儿我想到了:

re.findall(r"\[?\w+\]?|[^\w\s]",str_here)

哪个会产生:

['I' , 'want' , 'to' , 'keep' , '[InsideBrackets]' , ',' , 'as' , 'well' , 'as' ,
'[Inside' , 'Brackets]' , ',' , 'together',',','while','removing','other','punctuation','.']

但是我还没有弄清楚当放在方括号内时如何不分割空格。我找到了几种方法来做到这一点,但它们都打破了标点符号的分裂。我需要进行哪些更改?

0 个答案:

没有答案