调用预测函数时是否使用Scikit自定义标记生成器?

时间:2015-02-01 19:44:18

标签: python scikit-learn text-mining

如下所示,Scikit-learn文档有一个很好的自定义标记器示例。我将此与管道功能结合使用。

我的问题是,当我在训练有素的分类器上调用预测时,文本数据会自动通过相同的自定义标记生成器吗?或者,在发送分类器的预测函数之前,我是否必须通过标记器明确地运行输入文本?

如果在调用预测函数时自动进行转换,是否有办法查看预测后的转换后文本?

谢谢!

>>> from nltk import word_tokenize          
>>> from nltk.stem import WordNetLemmatizer 
>>> class LemmaTokenizer(object):
...     def __init__(self):
...         self.wnl = WordNetLemmatizer()
...     def __call__(self, doc):
...         return [self.wnl.lemmatize(t) for t in word_tokenize(doc)]
...
>>> vect = CountVectorizer(tokenizer=LemmaTokenizer())  

http://scikit-learn.org/stable/modules/feature_extraction.html

0 个答案:

没有答案