我有一个具有数字和分类属性的数据集。我正在通过weka中的旋转森林进行分类。我知道旋转森林只适用于数值属性,因为它计算PCA和其他东西。
我的期望是weka忽略分类属性,但是当我使用整个数据集进行分类以及从数据集中删除分类属性时,性能结果会有所不同。
weka对旋转林方法中的分类属性做了什么?
答案 0 :(得分:1)
weka对旋转林方法中的分类属性做了什么?
我不知道。
然而,如何明确转换您的attribites?
在Weka,"分类属性"被称为"名义属性"。
在预处理面板中,您可以应用多个替代过滤器来完成任务。
应用无监督属性过滤器" NominalToBinary",并查看它如何更改属性(使用二进制虚拟变量创建列)。
或者,您可以应用监督属性过滤器" NominalToBinary"它以稍微不同的方式转换属性(检查出来)。
另一种选择是尝试无监督属性过滤器" MakeIndicator" (转换为数字,但将所有类别归为0,但编码为数字1的类别除外。)
选择哪种替代方案?这取决于您的要求。
答案 1 :(得分:1)
旋转森林类似于随机森林,可以与分类数据一起使用。它们使用基本分类器集合,这些基本分类器在特征空间的子集上进行训练。在Weka中,默认的基本分类器是J48决策树,它可以处理分类数据,但是,您可以使用几乎任何基本分类器。使用与PCA结合的特征空间的自举采样获得特征子集。在这种情况下,PCA不用于降低维数,它用于为特征空间选择最佳旋转轴,并且尺寸不会减小,因此PCA和分类数据的常见问题在这种情况下并不真正适用。 Weka还允许您从PCA更改主滤波器,因此您可以应用其他方法来选择可能更适合标称数据的最佳旋转轴。
答案 2 :(得分:0)
如果您的分类属性被分类为数字,Weka会将它们视为数字属性。