在他的Data Mining with Weka课程中,Witten教授强调了检查分类器与简单分类器的重要性,例如选择最常见类的ZeroR分类器(如果你的花哨的机器学习算法几乎没有击败ZeroR'准确性,它可能不能很好地工作)。
是否可以使用ZeroR或其他方法检查使用Apache Mahout构建的分类器的基线准确度?
答案 0 :(得分:0)
获取您的数据,计算课程发生的频率。
这就是ZeroR所做的事情。由于它很简单,我不认为Mahout将其包含在他们的框架中。
编写MapReduce作业非常简单:
Mapper:
Reducer
然后你会知道从预测多数班级中得到的基线准确度。
Spark实现类似:
按类分组然后按类别计算并除以所有类别的总和。选择最大值,即基线。