应用错误收集

时间：2012-12-04 21:53:30

标签： matlab machine-learning artificial-intelligence

我在MATLAB（内置）中使用Naive Bayes来预测数据的类标签值。我的类标签可以包含{1,2,3,4,5}中的任何值。我也有testLabels。如何衡量testLabels和predictLabels差异是否良好？

我尝试使用RMSE。但似乎它给了我1.87124的价值

我不知道如何解释这个RMSE值？

此外，是否有任何标准的评估方法来评估朴素贝叶斯多类结果？

我知道二进制标签类我可以使用TPR，FPR，精度，准确度等。

答案 0 :(得分：1)

标准指标的概括可以对多类问题进行评分：准确性显然适用于多类情况，并且可以通过分别查看每个类来概括召回和精确度。查看二进制问题具有误导性，因为双向分类任务比5方式分类任务容易得多。

RMSE不是一个合适的指标---考虑一下如果你使用标签1-5，你得到的RMSE为0.74。但是，由于标签是任意的，您可以对类标签进行置换，并为相同的决策获得完全不同的RMSE。

答案 1 :(得分：0)

您可以使用各种指标。在许多情况下，准确度（即testLabel等于expectedLabel的频率）是一个很好的指标。

您还可以查看precision and recall，其中的内容类似于类型I和类型II错误。

但有一件事是肯定的 - 将RMSE应用于此案例并没有任何意义。例如，假设您使用字母A，B，C，D，E而不是数字1,2,3,4,5来标记数据。这是完全相同的问题（因为标签本身毫无意义），但现在RMSE是不可计算的，因为它只适用于数字。