应用错误收集

机器学习算法的统计比较

时间：2015-07-06 10:28:33

标签： math machine-learning statistics auc

我正在从事机器学习。我陷入其中一件事。

我想比较10个数据集中的4种机器学习技巧。在进行实验后，我获得了曲线下面积值。在此之后，我应用了方差分析测试，结果显示4种机器学习技术之间存在显着差异。

现在我的问题是哪个测试会得出结论，特定算法与其他算法相比表现良好，我只想在机器学习技术中获胜一个。

2 个答案:

答案 0 :(得分：0)

分类器的质量可以通过测量测试准确度的F-Score来衡量。比较这些相应的分数将为您提供一个简单的衡量标准。

但是，如果要衡量分类器之间是否存在差异＆＃39;准确度很高，你可以尝试Bayesian Test，或者，如果分类器训练一次，McNemar's test。

还有其他可能性，论文 On Comparing Classifiers: Pitfalls to Avoid and a Recommended Approach 和 Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms 可能值得一读。

答案 1 :(得分：0)

如果您从正确重新采样的数据集中收集性能指标（ROC，准确度，灵敏度，特异性......），则可以使用配对比较执行统计检验。大多数统计软件都涉及Tukeys Range测试（ANOVA）。 https://en.wikipedia.org/wiki/Tukey%27s_range_test。这种材料的正式处理方法如下：http://epub.ub.uni-muenchen.de/4134/1/tr030.pdf。这是我喜欢用于你讨论的目的的测试，虽然还有其他人和人们有不同的意见。

你仍然需要根据你的数据（k-fold），重复（k-fold），bootstrap，留出一个，重复训练测试分裂来选择你将如何采样。离开一个后，Bootstrap方法往往给你最紧密的置信区间;但如果您的数据很庞大，可能不会选择退出。

话虽如此，您可能还需要考虑问题域。误报可能是分类中的一个问题。您可能需要考虑其他指标来选择域的最佳执行者。 AUC可能并不总是特定域的最佳模型。例如，信用卡公司可能不想拒绝向客户进行交易，我们需要对欺诈分类的误报率非常低。

您可能还想考虑实施。如果逻辑回归也在附近执行，那么它可能是对随机林的更复杂实现的更好选择。模型使用是否存在法律影响（公平信用报告法......）？

常识方法是从RF或渐强增强树等开始，以获得性能上限的经验意义。然后构建更简单的模型，并使用比天花板更合理的简单模型。

或者您可以使用LASSO ...或其他模型之类的东西来组合所有模型。