应用错误收集

如下所示，Scikit-learn文档有一个很好的自定义标记器示例。我将此与管道功能结合使用。

我的问题是，当我在训练有素的分类器上调用预测时，文本数据会自动通过相同的自定义标记生成器吗？或者，在发送分类器的预测函数之前，我是否必须通过标记器明确地运行输入文本？

如果在调用预测函数时自动进行转换，是否有办法查看预测后的转换后文本？

谢谢！

>>> from nltk import word_tokenize          
>>> from nltk.stem import WordNetLemmatizer 
>>> class LemmaTokenizer(object):
...     def __init__(self):
...         self.wnl = WordNetLemmatizer()
...     def __call__(self, doc):
...         return [self.wnl.lemmatize(t) for t in word_tokenize(doc)]
...
>>> vect = CountVectorizer(tokenizer=LemmaTokenizer())

http://scikit-learn.org/stable/modules/feature_extraction.html

调用预测函数时是否使用Scikit自定义标记生成器？

0 个答案: