NLTK RegexpTokenizer:正则表达式只保留随机文本中的字符

时间:2017-10-25 05:34:44

标签: python regex

我使用tokenizer = RegexpTokenizer(r'\w+')来保留字母数字字符 但是,如何组合正则表达式以删除仅保留大于长度为2的字符的所有其他元素

以下是数据框中包含随机文本

的一行

0 [ANOTHER 2'' F/P SAMPLE 01:52 ...A13232 / AS OUTPUT MSG...

1 个答案:

答案 0 :(得分:1)

我认为你需要找到len>2的单词:

RegexpTokenizer(r'\w{3,}')

或者如果只需要字母:

RegexpTokenizer(r'[a-zA-Z]{3,}')