我的数据格式为
blah sentence one --> label1, label2
blah sentence two --> label2, label4
blah sentence three --> label3
如何在Spark中使用OneVsRestClassifier和NaiveBayesClassifier?
(即,我的数据应该如何构建?)。
对于使用NaiveBayes的多类分类,类LabeledPoint
包含label
和Feature Vector
。但是,对于上述情况,应该如何构建数据?
答案 0 :(得分:0)
只需像往常一样构建数据(LabeledPoint),但使用多个分类器(例如,OneVsRest),并切换传递给每个数据的数据(基于多个标记的向量)。 另一种解决方案是获取所有类的概率,而不是获得最可能的概率(预测(p.features()))
spring-roo-2.0.0.RC1
然后使用阈值过滤获取topk最可能的预测。