应用错误收集

Precision vs. Recall curves也很好（也是here）。

如果它像回归一样，许多统计人员建议将其绘制为数据顶部的拟合曲线，或者如果它是高维的，则可能是拟合曲线的许多不同的二维投影。同样可取的是对置信区间和事物进行加权，使它们比情节的其他部分显得更微弱，根据它们的不可能性在视觉上减轻重量。这是Andrew Gelman最近的一篇文章：（link）

如果你正在制作一个生成模型，比如计算一个贝叶斯后验分布，那么posterior predictive checking就是一个很好的模型。如果您正在进行回归，请不要低估汇总系数和R^{2}值的表的值。

如果您的数据自然适合某些域的顶部，例如x-y平面的一部分，或者您拥有美国各州的数据等，那么尝试将数据覆盖在域之上总是好的。制作一个显示数据分布的图（例如直方图，但如果密度高于问题域的某些视觉上有意义的部分，则通常要好得多），然后使用算法的输出复制相同的精确图。从视觉上看，数据分布和算法输出之间的严重差异会引起人们对算法不能导致正确推理的地方的注意。

这才是关键。目标是有效的推理，而不是达到相对较低的分类错误等。如果你得到了很好的分类错误，但你的方法过度拟合，它可能会出现在某些类型的图中。

一种常见的方法是使用ROC曲线（http://en.wikipedia.org/wiki/Receiver_operating_characteristic），如果它是二元分类问题，并且如果您有分类器参数，您可以改变以获得不同的结果。如果它不是二元分类问题，您仍然可以计算每个标签（类）的ROC曲线

除了混淆矩阵之外，还有哪些其他形式的评估？

2 个答案: