应用错误收集

数据挖掘算法比较

时间：2010-02-06 20:08:25

标签： algorithm data-mining

是否有任何数据挖掘算法比较？在性能，准确性和生成稳健模型所需的数据量方面进行比较。似乎套袋和助力等整体学习算法在这一刻被认为是最准确的。我没有任何具体问题需要解决。这只是一个理论问题。

4 个答案:

答案 0 :(得分：8)

您应该在网上搜索有关数据挖掘的调查问卷。

这是一个：Top Ten Algorithms in Data Mining，它提供排名而不是并排。（虽然可能有这种情况，但我没有阅读过论文）。

答案 1 :(得分：3)

在鲁棒性和准确性方面，通常很难比较机器学习算法。然而，人们可以研究它们的一些优点和缺点。我在下面考虑一些最着名的机器学习算法（这绝不是完整的事情说明，只是我的意见）：

决策树：最突出的是C4.5算法。它们具有产生易于解释的模型的优点。然而，它们容易过度拟合。存在许多变体。

贝叶斯网络具有强大的统计根源。它们在对不完整数据进行推理的域中特别有用。

人工神经网络被广泛使用并且功能强大。从理论上讲，它们能够逼近任意函数。但是，它们需要调整大量参数（网络结构，节点数，激活函数......）。它们也有作为黑盒子（难以解释的模型）的缺点

支持向量机可能被认为是最强大的技术之一。使用着名的核心技巧，理论上可以始终实现100％的可分离性。与ANN不同，他们寻求优化唯一可解决的问题（没有局部最小值）。然而，它们可能是计算密集型的并且难以应用于大型数据集。 SVM绝对是一个开放的研究领域。

然后有一类元学习算法，如套装学习技术，如装袋，提升，堆叠等......它们本身并不完整，而是用作改进和组合其他算法的方法。

我最后应该提到的是，一般来说，没有哪种算法比另一种算法更好，并且选择哪种算法在很大程度上取决于我们所在的域，以及数据以及如何在许多其他因素中预处理它们。

答案 2 :(得分：2)

事实证明，

ROC curves对机器学习技术的评估很有用，特别是在比较和评估不同的分类算法时。您可能会发现introduction to ROC analysis有用。

答案 3 :(得分：0)

根据您的问题，您似乎对分类算法感兴趣。首先，我想告诉您，数据挖掘不仅限于分类。还有其他一些数据挖掘任务，如挖掘频繁模式，聚类等等。

要回答您的问题，性能取决于算法，但也取决于数据集。对于某些数据集，某些算法可能比其他数据集提供更好的准确性。除了大多数数据挖掘书籍（C4.5等）中描述的经典分类算法之外，还有很多关于这些主题的研究论文。如果您想知道现在哪些算法通常表现更好，我建议您阅读研究论文。研究论文通常提供与先前算法的一些性能比较。但正如我所说，性能可能取决于您的数据。所以你可能需要尝试算法才能找到答案！