我有一个训练数据集和多个测试集(我在集群框架中对实例进行分类,因此测试集的实例是在飞行中计算的。)
实例属性具有不同的比例(第一个从0到1变化,第二个从0到100变化)。
我的分类器(逻辑回归和SMO)如何处理他们没有立即拥有整个测试集的事实?
换句话说,如果他们不知道测试集中的最大值是什么,他们如何处理不同的比例属性?
感谢
答案 0 :(得分:1)
根据Weka Javadocs,SMO“默认将所有属性标准化。(请注意,输出中的系数基于标准化/标准化数据,而不是原始数据。)”即,你会得到如果您的训练集未涵盖每个属性的全部范围,则会出现错误的标准化。这有多糟糕取决于你的数据。
我建议您尝试使用和不使用标准化进行训练(使用setFeatureSpaceNormalization(false)
将其关闭)并查看最佳效果。