标签: python nlp nltk
我想确切地知道在此令牌生成器中使用指定模式对文本执行的操作:
from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'[a-zA-Z]\w+\'?\w*') text_token = text.apply(tokenizer.tokenize)
其中“文本”是熊猫系列,每一行都是一个句子。
我特别想了解 r'[a-zA-Z] \ w + \'?\ w '*部分。详细信息(每个组件的说明)。
答案 0 :(得分:3)
这称为正则表达式或regex。在
[a-zA-Z]\w+\'?\w*
[a-zA-Z]
a
z
A
Z
\w+
\w
[a-zA-Z0-9_]
+
\'?
'
\w*
例如,字符串Random01'example与此表达式匹配。 This site也解释得很好。
Random01'example