Weka的J48允许我检查一整套属性的信息增益,我应该使用那些重要的属性来构建我的模型吗?或者我应该使用完整的属性集吗?
答案 0 :(得分:1)
在数据挖掘中,您使用的功能数量,准确性和生成模型所需的时间之间存在多方面的权衡。理论上,您希望包含所有可能的功能以提高准确性;但是,以这种方式进行数据挖掘可以保证冗长的模型生成时间。此外,当树具有数千个节点时,生成像J48这样的文本决策树的模型并不有用。
根据您开始使用的功能数量,您可能希望删除无法提供足够大量信息增益的功能。如果您开始使用少量功能(例如少于20个),那么保留所有这些功能可能是有意义的。
如果您希望限制使用的功能数量,最好选择信息增益最高的功能。考虑主成分减少(可以通过WEKA完成)来帮助选择最佳特征也是值得的。