Spark多标签分类

时间:2016-08-26 13:17:10

标签: apache-spark scikit-learn pyspark

我希望用Spark实现,这是一种多输出的多标签分类算法,但我很惊讶Spark Machine Learning库中没有任何模型可以做到这一点。

如何使用Spark执行此操作?

否则Scikit Learn Logistic Regresssion支持输入/输出中的多标签分类,但不支持大量的培训数据。

要查看scikit中的代码,请点击以下链接: https://gist.github.com/mkbouaziz/5bdb463c99ba9da317a1495d4635d0fc

1 个答案:

答案 0 :(得分:1)

同样在Spark中,Logistic回归支持基于api documentation的多标签分类。另见this

使用适当的Spark配置,您在scikitlearn上获得的大量训练数据的问题将随着spark消失。

另一种方法是对问题所具有的每个标签使用二元分类器,并通过对该标签运行相关无关的预测来获得多标签。你可以使用任何二元分类器在Spark中轻松完成。

间接地,可能也有帮助的是使用最近邻居的多标签分类,这也是state-of-the-art。例如,一些最近的邻居Spark扩展,例如Spark KNNSpark KNN graphs