文本标记器的模式说明

时间:2018-08-29 08:29:23

标签: python nlp nltk

我想确切地知道在此令牌生成器中使用指定模式对文本执行的操作:

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'[a-zA-Z]\w+\'?\w*')
text_token = text.apply(tokenizer.tokenize)

其中“文本”是熊猫系列,每一行都是一个句子。

我特别想了解 r'[a-zA-Z] \ w + \'?\ w '*部分。详细信息(每个组件的说明)。

1 个答案:

答案 0 :(得分:3)

这称为正则表达式或regex。在

[a-zA-Z]\w+\'?\w*

  • [a-zA-Z]代表从azA的单个字符 到Z
  • \w+与任何重复的单词字符匹配,其中\w[a-zA-Z0-9_]+符号的简写允许其重复
  • \'?从字面上匹配字符'
  • \w*再次是单词字符,重复一到无限次

例如,字符串Random01'example与此表达式匹配。 This site也解释得很好。