我使用tokenizer = RegexpTokenizer(r'\w+')
来保留字母数字字符
但是,如何组合正则表达式以删除仅保留大于长度为2的字符的所有其他元素
以下是数据框中包含随机文本
的一行 0 [ANOTHER 2'' F/P SAMPLE 01:52 ...A13232 / AS OUTPUT MSG...
答案 0 :(得分:1)
我认为你需要找到len>2
的单词:
RegexpTokenizer(r'\w{3,}')
或者如果只需要字母:
RegexpTokenizer(r'[a-zA-Z]{3,}')