应用错误收集

时间：2013-10-11 20:26:41

标签： machine-learning data-mining weka

我正在使用Weka对几个大型数据集执行分类，聚类和一些回归。我正在尝试所有的分类器（决策树，SVM，天真的贝叶斯等）。

是否有办法（在Weka或其他机器学习工具包中）扫描所有可用的分类器算法，以找到产生最佳交叉验证精度或其他度量的算法？

我也想为我的其他群集问题找到最好的聚类算法;或许找到最低的平方误差之和？

答案 0 :(得分：3)

这也不是过度拟合吗？尝试大量的分类器，并选择最好的？

另请注意，预处理通常非常重要，不同的分类器可能需要不同的预处理;并且每个分类器又有十几个参数...

对于群集相同，不要按某种指标选择群集算法。因为如果您选择例如“最低平方和”，k-means 将获胜。不是因为它更好。但是因为你的评估方法更多 overfit ：k-means优化了平方和。结果可能是其他指标的废话，但在SSQ上，它们是设计上的局部最优。

数据挖掘不是你可以自动按下按钮级别的东西。

这是一项技能，需要有关如何预处理，选择算法，调整参数和评估实际结果的经验。否则，您将在市场上使用一些软件来提供数据并获得最佳分类器。