数据挖掘算法比较

时间:2010-02-06 20:08:25

标签: algorithm data-mining

是否有任何数据挖掘算法比较?在性能,准确性和生成稳健模型所需的数据量方面进行比较。 似乎套袋和助力等整体学习算法在这一刻被认为是最准确的。 我没有任何具体问题需要解决。这只是一个理论问题。

4 个答案:

答案 0 :(得分:8)

您应该在网上搜索有关数据挖掘的调查问卷。

这是一个:Top Ten Algorithms in Data Mining,它提供排名而不是并排。 (虽然可能有这种情况,但我没有阅读过论文)。

答案 1 :(得分:3)

在鲁棒性和准确性方面,通常很难比较机器学习算法。然而,人们可以研究它们的一些优点和缺点。我在下面考虑一些最着名的机器学习算法(这绝不是完整的事情说明,只是我的意见):

决策树:最突出的是C4.5算法。它们具有产生易于解释的模型的优点。然而,它们容易过度拟合。存在许多变体。

贝叶斯网络具有强大的统计根源。它们在对不完整数据进行推理的域中特别有用。

人工神经网络被广泛使用并且功能强大。从理论上讲,它们能够逼近任意函数。但是,它们需要调整大量参数(网络结构,节点数,激活函数......)。它们也有作为黑盒子(难以解释的模型)的缺点

支持向量机可能被认为是最强大的技术之一。使用着名的核心技巧,理论上可以始终实现100%的可分离性。与ANN不同,他们寻求优化唯一可解决的问题(没有局部最小值)。然而,它们可能是计算密集型的并且难以应用于大型数据集。 SVM绝对是一个开放的研究领域。

然后有一类元学习算法,如套装学习技术,如装袋,提升,堆叠等......它们本身并不完整,而是用作改进和组合其他算法的方法。

我最后应该提到的是,一般来说,没有哪种算法比另一种算法更好,并且选择哪种算法在很大程度上取决于我们所在的域,以及数据以及如何在许多其他因素中预处理它们。

答案 2 :(得分:2)

事实证明,

ROC curves对机器学习技术的评估很有用,特别是在比较和评估不同的分类算法时。您可能会发现introduction to ROC analysis有用。

答案 3 :(得分:0)

根据您的问题,您似乎对分类算法感兴趣。首先,我想告诉您,数据挖掘不仅限于分类。还有其他一些数据挖掘任务,如挖掘频繁模式,聚类等等。

要回答您的问题,性能取决于算法,但也取决于数据集。对于某些数据集,某些算法可能比其他数据集提供更好的准确性。除了大多数数据挖掘书籍(C4.5等)中描述的经典分类算法之外,还有很多关于这些主题的研究论文。如果您想知道现在哪些算法通常表现更好,我建议您阅读研究论文。研究论文通常提供与先前算法的一些性能比较。但正如我所说,性能可能取决于您的数据。所以你可能需要尝试算法才能找到答案!