WEKA:属性尺度问题

时间:2011-05-02 13:06:10

标签: machine-learning weka svm

我有一个训练数据集和多个测试集(我在集群框架中对实例进行分类,因此测试集的实例是在飞行中计算的。)

实例属性具有不同的比例(第一个从0到1变化,第二个从0到100变化)。

我的分类器(逻辑回归和SMO)如何处理他们没有立即拥有整个测试集的事实?

换句话说,如果他们不知道测试集中的最大值是什么,他们如何处理不同的比例属性?

感谢

1 个答案:

答案 0 :(得分:1)

根据Weka Javadocs,SMO“默认将所有属性标准化。(请注意,输出中的系数基于标准化/标准化数据,而不是原始数据。)”即,你会得到如果您的训练集未涵盖每个属性的全部范围,则会出现错误的标准化。这有多糟糕取决于你的数据。

我建议您尝试使用和不使用标准化进行训练(使用setFeatureSpaceNormalization(false)将其关闭)并查看最佳效果。