如何在SciKit CountVectorizer中有条件地选择标记器?

时间:2016-09-20 20:08:05

标签: python scikit-learn tokenize

我有一些像这样的代码:

text_classifier = Pipeline([       
('cv',CountVectorizer(tokenizer=tokenizer)),
('tf',TfidfTransformer()),     
('cf',MultinomialNB()),
...

根据我的数据,我需要选择一个不同的tokenizer(等效地,将不同的参数传递给tokenizer)。例如,如果我的数据是类型A,则使用TokenizerA,如果类型B使用TokenizerB。

Tokenizer的选择取决于文件路径。

如何在SciKit中对此进行编程?

编辑:

这似乎有用,但这是一个非常疯狂的复杂例子:

scikit-learn.org/stable/auto_examples/applications/plot_out_of_core_classification.html

我只是学习SciKit,可以使用一个简单的,直观的例子。

0 个答案:

没有答案