在WEKA中简单统计是/否分类器

时间:2014-05-02 18:44:13

标签: machine-learning nlp weka

为了让我比较我在标记文本分类中的研究结果,我需要有一个基线来比较。我的一位同事告诉我,一个解决方案是使最简单和最愚蠢的分类器成为可能。分类器基于特定标签的频率做出决定。 这意味着,在我的数据集中,我总共有100个样本,当它知道这些样本中有80%具有标签A时,它会将样本分类为' A'在80%的时间里。由于我的整个研究都在使用Weka API,所以我查看了文档但不幸的是没有发现任何相关内容。

所以我的问题是,Weka是否有可能实现这样的分类器,是的,是否有人可以指出这是可能的?这个问题是纯粹的信息,因为我调查了这个东西,但没有找到任何东西,这里是我希望找到答案的地方。

1 个答案:

答案 0 :(得分:0)

该分类器已在Weka中实现,它被称为ZeroR,只是预测最常见的类(在名义类属性的情况下)或均值(在数字类属性的情况下)。如果您想知道如何自己实现这样的分类器,请查看ZeroR源代码。