应用错误收集

时间：2011-05-02 13:06:10

标签： machine-learning weka svm

我有一个训练数据集和多个测试集（我在集群框架中对实例进行分类，因此测试集的实例是在飞行中计算的。）

实例属性具有不同的比例（第一个从0到1变化，第二个从0到100变化）。

我的分类器（逻辑回归和SMO）如何处理他们没有立即拥有整个测试集的事实？

换句话说，如果他们不知道测试集中的最大值是什么，他们如何处理不同的比例属性？

感谢

答案 0 :(得分：1)

根据Weka Javadocs，SMO“默认将所有属性标准化。（请注意，输出中的系数基于标准化/标准化数据，而不是原始数据。）”即，你会得到如果您的训练集未涵盖每个属性的全部范围，则会出现错误的标准化。这有多糟糕取决于你的数据。

我建议您尝试使用和不使用标准化进行训练（使用setFeatureSpaceNormalization(false)将其关闭）并查看最佳效果。