我们如何解释WEKA的成本矩阵?如果我有2个类来预测(0级和1级)并想要将0级的分类更多地作为1级惩罚(比如惩罚的两倍),那么矩阵格式究竟是什么?
是吗:
0 10
20 0
或者是
0 20
10 0
混淆的来源有以下两个参考:
1)Weka CostMatrix的JavaDoc说:
矩阵中位置i,j处的元素是将类j的实例分类为类i的惩罚。
2)然而,这篇文章的答案似乎表明不是。
http://weka.8497.n7.nabble.com/cost-matrix-td5821.html
鉴于第一个成本矩阵,该帖子称“对0级实例进行分类会产生10的成本。对1级实例进行分类是成本的两倍。
感谢。
答案 0 :(得分:6)
我知道我的答案来得很晚,但它可能对某人有帮助,所以这就是:
为了提高将0级项目分类为1级的成本,正确的格式是第二种。
证据:
我使用的成本矩阵:
0 1.0
1000.0 0
混淆矩阵(来自交叉验证):
a b <-- classified as
565 20 | a = ignored
54 204 | b = not_ignored
交叉验证输出:
...
Total Cost 54020
...
这是54 * 10000 + 20 * 1
的成本,与上面的混淆矩阵相匹配。