使用Spark中的NaiveBayes分类器进行多标签分类

时间:2016-12-19 03:55:38

标签: scala apache-spark apache-spark-mllib naivebayes

我的数据格式为
blah sentence one --> label1, label2
blah sentence two --> label2, label4
blah sentence three --> label3

如何在Spark中使用OneVsRestClassifier和NaiveBayesClassifier? (即,我的数据应该如何构建?)。 对于使用NaiveBayes的多类分类,类LabeledPoint包含labelFeature Vector。但是,对于上述情况,应该如何构建数据?

1 个答案:

答案 0 :(得分:0)

只需像往常一样构建数据(LabeledPoint),但使用多个分类器(例如,OneVsRest),并切换传递给每个数据的数据(基于多个标记的向量)。 另一种解决方案是获取所有类的概率,而不是获得最可能的概率(预测(p.features()))

spring-roo-2.0.0.RC1

然后使用阈值过滤获取topk最可能的预测。