Question

我的数据格式为
blah sentence one --> label1, label2
blah sentence two --> label2, label4
blah sentence three --> label3

如何在Spark中使用OneVsRestClassifier和NaiveBayesClassifier？（即，我的数据应该如何构建？）。对于使用NaiveBayes的多类分类，类LabeledPoint包含label和Feature Vector。但是，对于上述情况，应该如何构建数据？

Answer 1

只需像往常一样构建数据（LabeledPoint），但使用多个分类器（例如，OneVsRest），并切换传递给每个数据的数据（基于多个标记的向量）。另一种解决方案是获取所有类的概率，而不是获得最可能的概率（预测（p.features（）））

spring-roo-2.0.0.RC1

然后使用阈值过滤获取topk最可能的预测。