我正在从事机器学习。我陷入其中一件事。
我想比较10个数据集中的4种机器学习技巧。在进行实验后,我获得了曲线下面积值。在此之后,我应用了方差分析测试,结果显示4种机器学习技术之间存在显着差异。
现在我的问题是哪个测试会得出结论,特定算法与其他算法相比表现良好,我只想在机器学习技术中获胜一个。
答案 0 :(得分:0)
分类器的质量可以通过测量测试准确度的F-Score来衡量。比较这些相应的分数将为您提供一个简单的衡量标准。
但是,如果要衡量分类器之间是否存在差异'准确度很高,你可以尝试Bayesian Test,或者,如果分类器训练一次,McNemar's test。
还有其他可能性,论文 On Comparing Classifiers: Pitfalls to Avoid and a Recommended Approach 和 Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms 可能值得一读。
答案 1 :(得分:0)
如果您从正确重新采样的数据集中收集性能指标(ROC,准确度,灵敏度,特异性......),则可以使用配对比较执行统计检验。大多数统计软件都涉及Tukeys Range测试(ANOVA)。 https://en.wikipedia.org/wiki/Tukey%27s_range_test。这种材料的正式处理方法如下:http://epub.ub.uni-muenchen.de/4134/1/tr030.pdf。这是我喜欢用于你讨论的目的的测试,虽然还有其他人和人们有不同的意见。
你仍然需要根据你的数据(k-fold),重复(k-fold),bootstrap,留出一个,重复训练测试分裂来选择你将如何采样。离开一个后,Bootstrap方法往往给你最紧密的置信区间;但如果您的数据很庞大,可能不会选择退出。
话虽如此,您可能还需要考虑问题域。误报可能是分类中的一个问题。您可能需要考虑其他指标来选择域的最佳执行者。 AUC可能并不总是特定域的最佳模型。例如,信用卡公司可能不想拒绝向客户进行交易,我们需要对欺诈分类的误报率非常低。
您可能还想考虑实施。如果逻辑回归也在附近执行,那么它可能是对随机林的更复杂实现的更好选择。模型使用是否存在法律影响(公平信用报告法......)?
常识方法是从RF或渐强增强树等开始,以获得性能上限的经验意义。然后构建更简单的模型,并使用比天花板更合理的简单模型。
或者您可以使用LASSO ...或其他模型之类的东西来组合所有模型。