我正在尝试在Weka中执行属性选择。我想使用InfoGainAttributeEval作为评估者,因为我读到它相当于互信息,而Ranker作为搜索方法。我应该对训练和测试集进行属性选择吗?另外,如何为N参数选择正确的值?
非常感谢你的时间,
纳迪亚
答案 0 :(得分:1)
在列车和测试上单独应用属性选择可能会导致选择不同的属性,从而使它们不兼容。因此,为了确保两个集具有相同的属性,您需要在整个数据集上应用属性选择。选择最有用的属性后,将数据拆分为一个列车和测试集。
至于要使用-N
的哪个值,我会使用您的属性总数。这将生成所有属性的排名列表,您可以自己评估所有属性的不同分数。然后,您可能会发现一个明确的阈值,将包含任何有用信息的属性分开,以便将分类器与不添加任何内容的属性进然后,我将使用-T
选项设置此阈值。