机器学习算法的统计比较

时间:2015-07-06 10:28:33

标签: math machine-learning statistics auc

我正在从事机器学习。我陷入其中一件事。

我想比较10个数据集中的4种机器学习技巧。在进行实验后,我获得了曲线下面积值。在此之后,我应用了方差分析测试,结果显示4种机器学习技术之间存在显着差异。

现在我的问题是哪个测试会得出结论,特定算法与其他算法相比表现良好,我只想在机器学习技术中获胜一个。

2 个答案:

答案 0 :(得分:0)

分类器的质量可以通过测量测试准确度的F-Score来衡量。比较这些相应的分数将为您提供一个简单的衡量标准。

但是,如果要衡量分类器之间是否存在差异'准确度很高,你可以尝试Bayesian Test,或者,如果分类器训练一次,McNemar's test

还有其他可能性,论文 On Comparing Classifiers: Pitfalls to Avoid and a Recommended Approach Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms 可能值得一读。

答案 1 :(得分:0)

如果您从正确重新采样的数据集中收集性能指标(ROC,准确度,灵敏度,特异性......),则可以使用配对比较执行统计检验。大多数统计软件都涉及Tukeys Range测试(ANOVA)。 https://en.wikipedia.org/wiki/Tukey%27s_range_test。这种材料的正式处理方法如下:http://epub.ub.uni-muenchen.de/4134/1/tr030.pdf。这是我喜欢用于你讨论的目的的测试,虽然还有其他人和人们有不同的意见。

你仍然需要根据你的数据(k-fold),重复(k-fold),bootstrap,留出一个,重复训练测试分裂来选择你将如何采样。离开一个后,Bootstrap方法往往给你最紧密的置信区间;但如果您的数据很庞大,可能不会选择退出。

话虽如此,您可能还需要考虑问题域。误报可能是分类中的一个问题。您可能需要考虑其他指标来选择域的最佳执行者。 AUC可能并不总是特定域的最佳模型。例如,信用卡公司可能不想拒绝向客户进行交易,我们需要对欺诈分类的误报率非常低。

您可能还想考虑实施。如果逻辑回归也在附近执行,那么它可能是对随机林的更复杂实现的更好选择。模型使用是否存在法律影响(公平信用报告法......)?

常识方法是从RF或渐强增强树等开始,以获得性能上限的经验意义。然后构建更简单的模型,并使用比天花板更合理的简单模型。

或者您可以使用LASSO ...或其他模型之类的东西来组合所有模型。