我正在尝试标记字符串,所有标点符号都变成其自己的标记。但是,我不需要在方括号内分割文本。
例句: 我想保留[InsideBrackets]和[Inside Brackets]在一起,同时删除其他标点符号。
过一会儿我想到了:
re.findall(r"\[?\w+\]?|[^\w\s]",str_here)
哪个会产生:
['I' , 'want' , 'to' , 'keep' , '[InsideBrackets]' , ',' , 'as' , 'well' , 'as' ,
'[Inside' , 'Brackets]' , ',' , 'together',',','while','removing','other','punctuation','.']
但是我还没有弄清楚当放在方括号内时如何不分割空格。我找到了几种方法来做到这一点,但它们都打破了标点符号的分裂。我需要进行哪些更改?