我正在使用Weka对几个大型数据集执行分类,聚类和一些回归。我正在尝试所有的分类器(决策树,SVM,天真的贝叶斯等)。
是否有办法(在Weka或其他机器学习工具包中)扫描所有可用的分类器算法,以找到产生最佳交叉验证精度或其他度量的算法?
我也想为我的其他群集问题找到最好的聚类算法;或许找到最低的平方误差之和?
答案 0 :(得分:3)
这也不是过度拟合吗?尝试大量的分类器,并选择最好的?
另请注意,预处理通常非常重要,不同的分类器可能需要不同的预处理;并且每个分类器又有十几个参数...
对于群集相同,不要按某种指标选择群集算法。因为如果您选择例如“最低平方和”,k-means 将获胜。不是因为它更好。但是因为你的评估方法更多 overfit :k-means优化了平方和。结果可能是其他指标的废话,但在SSQ上,它们是设计上的局部最优。
数据挖掘不是你可以自动按下按钮级别的东西。
这是一项技能,需要有关如何预处理,选择算法,调整参数和评估实际结果的经验。否则,您将在市场上使用一些软件来提供数据并获得最佳分类器。