应用错误收集

时间：2012-09-16 13:13:04

标签： machine-learning weka

我正在尝试在Weka中执行属性选择。我想使用InfoGainAttributeEval作为评估者，因为我读到它相当于互信息，而Ranker作为搜索方法。我应该对训练和测试集进行属性选择吗？另外，如何为N参数选择正确的值？

非常感谢你的时间，

纳迪亚

答案 0 :(得分：1)

在列车和测试上单独应用属性选择可能会导致选择不同的属性，从而使它们不兼容。因此，为了确保两个集具有相同的属性，您需要在整个数据集上应用属性选择。选择最有用的属性后，将数据拆分为一个列车和测试集。

至于要使用-N的哪个值，我会使用您的属性总数。这将生成所有属性的排名列表，您可以自己评估所有属性的不同分数。然后，您可能会发现一个明确的阈值，将包含任何有用信息的属性分开，以便将分类器与不添加任何内容的属性进然后，我将使用-T选项设置此阈值。