我正在使用资源管理器功能进行分类。我的.arff数据文件有10个数字和二进制值的特征; (只有实例的ID是名义上的。)我有16个实例。要预测的类是Yes / No.i使用Naive bayes但我无法解释结果,有没有人知道如何解释朴素贝叶斯分类的结果?
答案 0 :(得分:1)
Naive Bayes没有选择任何重要功能。正如您所提到的,Naive Bayes分类器训练的结果是每个特征的均值和方差。将新样本分类为“是”或“否”是基于样本的特征值是否与“是”或“否”的训练特征的均值和方差最匹配。
您可以使用其他算法来查找信息量最大的属性。在这种情况下,您可能希望使用决策树分类器,例如WEKA中的J48(C4.5 decision tree algorithm的开源实现)。结果决策树中的第一个节点告诉您哪个特征具有最强的预测能力。
更好(正如Rushdi Shams在另一篇文章中所述); Weka的Explorer提供了目的构建选项,以便在数据集中查找最有用的属性。这些选项可在Select attributes
标签下找到。
答案 1 :(得分:1)
正如Sicco所说,NB无法为您提供最佳功能。决策树是一个很好的选择,因为分支有时可以告诉您重要的功能 - 但并非总是如此。为了处理简单到复杂的功能集,您可以使用WEKA的SELECT ATTRIBUTE选项卡。在那里,您可以找到搜索方法和属性评估程序。根据您的任务,您可以选择最适合您的任务。它们将为您提供功能的排名(来自培训数据或来自k折交叉验证)。就个人而言,我认为如果您的数据集过度拟合,决策树的表现会很差。在这种情况下,功能排名是选择最佳功能的标准方法。大多数时候我使用infogain和ranker算法。当你看到你的属性从1到k排名时,找出所需的功能和不必要的功能真的很不错。