我必须在不同的数据挖掘算法之间进行三种不同的比较。
唯一有问题的比较类型是最基本的, 单个数据集上的两个算法 - 对我来说是个问题。
我知道 Diettrich(1998)论文指的是 McNemar 和 5x2CV 作为选择和状态的选项,重新采样t检验是不可行的。由于分析是使用子样本进行更大规模设置的一部分,60:40培训:测试分割和总成本作为性能测量,我不能使用它们。
在这种情况下还有哪些其他选项可以评估效果?
签名测试:只计算案例数量,两种算法中的每一种都表现得更好,然后使用二项分布检查p值。问题非常弱。
Wilcoxon-signed-rank-test:作为t-test的非参数替代方案,我想到的第一个,但在任何论文中都没有提到这种比较,仅用于使用多次迭代的平均性能结果比较几个数据集上的两个算法。 这是不可行的,如果是,为什么?
答案 0 :(得分:0)
两者之间的一个明显区别是,Wilcoxon签名等级测试要求您计算一对中两个成员之间的差异,然后对这些差异进行排名。如果你对每个成员的唯一信息是数据挖掘程序是否正确猜出其成员的类,那么只有三个可能的有符号等级 - -1,0,1和Wilcoxon签名等级测试将等同于McNemar测试,这实际上只是计算符号测试的近似尾值的一种方法。如果比较一对中两个成员的结果是有意义的,但不要减去它们并得到一个数字,那么你又回到了符号测试。
这听起来像是让你做一些统计测试的练习,但如果这是现实生活中的事情,我首先想到的是弄清楚为什么你真正关心运行数据挖掘练习,或许将其减少到以金钱为价值,然后寻找代表最佳的测试。