Question

我想确切地知道在此令牌生成器中使用指定模式对文本执行的操作：

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'[a-zA-Z]\w+\'?\w*')
text_token = text.apply(tokenizer.tokenize)

其中“文本”是熊猫系列，每一行都是一个句子。

我特别想了解 r'[a-zA-Z] \ w + \'？\ w '*部分。详细信息（每个组件的说明）。

Answer 1

这称为正则表达式或regex。在

[a-zA-Z]\w+\'?\w*

例如，字符串Random01'example与此表达式匹配。 This site也解释得很好。