Question

我试图使用WEKA及其分类选项来获得良好的准确性。

使用这种方法我无法涵盖所有选项，这就是为什么我担心错过最佳分类以获得最佳J48树解决方案。

我尝试使用多种分类和方法，例如（NB，costSensitive，attributeClassifier等），并且每种方法都至少有几个选项。

我的问题是：

有没有选择让软件（WEKA或其他软件）运行（甚至几天!!），以找到最佳解决方案的最佳分类？如果更具体一点，我可以确定我想要的混淆矩阵，软件会告诉我使用哪种分类或选项吗？

Answer 1

要评估一个分类器，请使用

java -Xmx1024m weka.classifiers.trees.J48 -t data.arff -i -k -d J48-data.model >&! J48-data.out

其中-i和-k为您提供的信息包括所有类的混淆矩阵，精度和召回。

要选择最佳分类器，请使用

cat *.out | grep -A 3 "Stratified" | grep "^Correctly"

获得所有交叉验证的准确度。从训练精度和交叉验证准确度之间的比较可以推断出是否存在过度拟合。

最后，您可以将最佳选项应用于新测试数据：

java weka.classifiers.trees.J48 -l J48-data.model -T new-data.arff

Answer 2

您应该使用不同的参数运行分类器，并检查每个参数集的分类器性能。 Here您为WEKA课程提供了参考资料。