我正在处理一个文本分类器,我想要执行以下操作
我设法为此创建了一个Pipeline,但我不确定它是否像上面解释的那样运行。
features = FeatureUnion(n_jobs=-1,
[('textcounts', TextCounts())
, Pipeline([
('cleantext', CleanText())
, ('vect', vect)
])
])
pipeline = Pipeline([
('features', features)
, ('clf', clf)
])
事实上,我不确定CountVectorizer是否应用于已清理的文本或原始文本。有没有办法解决这个问题?谢谢!
答案 0 :(得分:0)
FeatureUnion中的步骤将并行应用(因为您允许尽可能多的作业,因为您拥有n_jobs = -1的核心,甚至实际并行)。所以,是的,CountVectorizer将应用于已清理的文本。
我认为this博文中的图片非常清楚。
关于“有没有找到方法?”,请参阅my answer here了解更多问题。