使用Mahout进行基线分类准确性

时间:2015-02-26 05:55:55

标签: machine-learning mahout

在他的Data Mining with Weka课程中,Witten教授强调了检查分类器与简单分类器的重要性,例如选择最常见类的ZeroR分类器(如果你的花哨的机器学习算法几乎没有击败ZeroR'准确性,它可能不能很好地工作)。

是否可以使用ZeroR或其他方法检查使用Apache Mahout构建的分类器的基线准确度?

1 个答案:

答案 0 :(得分:0)

获取您的数据,计算课程发生的频率。

这就是ZeroR所做的事情。由于它很简单,我不认为Mahout将其包含在他们的框架中。

编写MapReduce作业非常简单:

Mapper:

  • 将类作为键发出,1作为值发出(让映射器预先计算整个输入的总和以提高网络效率或使用合并器)

Reducer

  • 对所有键求和,取最大值并除以所有类的总和

然后你会知道从预测多数班级中得到的基线准确度。

Spark实现类似:

按类分组然后按类别计算并除以所有类别的总和。选择最大值,即基线。