我有一些像这样的代码:
text_classifier = Pipeline([
('cv',CountVectorizer(tokenizer=tokenizer)),
('tf',TfidfTransformer()),
('cf',MultinomialNB()),
...
根据我的数据,我需要选择一个不同的tokenizer(等效地,将不同的参数传递给tokenizer)。例如,如果我的数据是类型A,则使用TokenizerA,如果类型B使用TokenizerB。
Tokenizer的选择取决于文件路径。
如何在SciKit中对此进行编程?
编辑:
这似乎有用,但这是一个非常疯狂的复杂例子:
scikit-learn.org/stable/auto_examples/applications/plot_out_of_core_classification.html
我只是学习SciKit,可以使用一个简单的,直观的例子。