假设对于分类任务,我有算法A和算法B,以及大小为M的标记数据集。算法A和算法B都是“确定性”机器学习方法,也就是说,算法没有一些参数是随机种子,因此给定不同的随机种子,即使使用相同的数据集,训练的分类器也可以不同。
我的问题是,如果我想证明算法A在统计上比算法B更好(或更差),我应该怎么做?
答案 0 :(得分:1)
嗯,您描述问题的方式,检查统计差异的唯一方法是改变您的数据集。生成几个不同的数据集,并在其上运行算法A和B,比较结果(不清楚您的质量指标是结果的正确性还是所花费的时间,但它可以两种方式工作)。