如下所示,Scikit-learn文档有一个很好的自定义标记器示例。我将此与管道功能结合使用。
我的问题是,当我在训练有素的分类器上调用预测时,文本数据会自动通过相同的自定义标记生成器吗?或者,在发送分类器的预测函数之前,我是否必须通过标记器明确地运行输入文本?
如果在调用预测函数时自动进行转换,是否有办法查看预测后的转换后文本?
谢谢!
>>> from nltk import word_tokenize
>>> from nltk.stem import WordNetLemmatizer
>>> class LemmaTokenizer(object):
... def __init__(self):
... self.wnl = WordNetLemmatizer()
... def __call__(self, doc):
... return [self.wnl.lemmatize(t) for t in word_tokenize(doc)]
...
>>> vect = CountVectorizer(tokenizer=LemmaTokenizer())
http://scikit-learn.org/stable/modules/feature_extraction.html