Question

我使用tokenizer = RegexpTokenizer(r'\w+')来保留字母数字字符但是，如何组合正则表达式以删除仅保留大于长度为2的字符的所有其他元素

以下是数据框中包含随机文本

的一行

0 [ANOTHER 2'' F/P SAMPLE 01:52 ...A13232 / AS OUTPUT MSG...

Answer 1

我认为你需要找到len>2的单词：

RegexpTokenizer(r'\w{3,}')

或者如果只需要字母：

RegexpTokenizer(r'[a-zA-Z]{3,}')