应用错误收集

Weka机器学习：如何解释朴素贝叶斯分类器？

时间：2012-04-17 11:01:29

标签： machine-learning weka classification

我正在使用资源管理器功能进行分类。我的.arff数据文件有10个数字和二进制值的特征; （只有实例的ID是名义上的。）我有16个实例。要预测的类是Yes / No.i使用Naive bayes但我无法解释结果，有没有人知道如何解释朴素贝叶斯分类的结果？

2 个答案:

答案 0 :(得分：1)

Naive Bayes没有选择任何重要功能。正如您所提到的，Naive Bayes分类器训练的结果是每个特征的均值和方差。将新样本分类为“是”或“否”是基于样本的特征值是否与“是”或“否”的训练特征的均值和方差最匹配。

您可以使用其他算法来查找信息量最大的属性。在这种情况下，您可能希望使用决策树分类器，例如WEKA中的J48（C4.5 decision tree algorithm的开源实现）。结果决策树中的第一个节点告诉您哪个特征具有最强的预测能力。

更好（正如Rushdi Shams在另一篇文章中所述）; Weka的Explorer提供了目的构建选项，以便在数据集中查找最有用的属性。这些选项可在Select attributes标签下找到。

答案 1 :(得分：1)

正如Sicco所说，NB无法为您提供最佳功能。决策树是一个很好的选择，因为分支有时可以告诉您重要的功能 - 但并非总是如此。为了处理简单到复杂的功能集，您可以使用WEKA的SELECT ATTRIBUTE选项卡。在那里，您可以找到搜索方法和属性评估程序。根据您的任务，您可以选择最适合您的任务。它们将为您提供功能的排名（来自培训数据或来自k折交叉验证）。就个人而言，我认为如果您的数据集过度拟合，决策树的表现会很差。在这种情况下，功能排名是选择最佳功能的标准方法。大多数时候我使用infogain和ranker算法。当你看到你的属性从1到k排名时，找出所需的功能和不必要的功能真的很不错。