在MapReduce中组合SVM分类器

时间:2015-10-31 09:59:21

标签: python mapreduce scikit-learn svm

我的任务是使用scikit-learn,python和mapreduce解决情绪分类问题。我需要使用mapreduce来并行化项目,从而创建多个SVM分类器。然后我应该将分类器“平均”在一起,但我不确定它是如何工作的,或者它是否可能。分类的结果应该是一个分类器,即训练的平均分类器。

我已经使用scikit-learn SVM Linear内核编写了代码,但它确实有效,但现在我需要将它带入map-reduce,并行化的上下文中,我甚至不知道如何开始。

有什么建议吗?

1 个答案:

答案 0 :(得分:0)

  1. 确保群集中的每个节点都安装了所有必需的库(scikit-learn,NumPy,pandas)。

  2. 您的映射器将处理每一行输入,即您的训练行,并发出一个基本上代表您将训练分类器的折叠的键。

  3. 您的reducer将收集每个折叠的行,然后在该折叠的所有行上运行sklearn分类器。

  4. 然后,您可以对每个折叠的结果进行平均。