在数据挖掘中选择变量(因子)的标准

时间:2014-11-16 21:14:40

标签: weka data-mining

我有英国道路事故数据,数据量非常大,有100万条记录和约66个因素,如年龄,性别,速度限制,光线,事故影响等。所以,我的教授希望我选择最好的7个因素,但他没有说出我最终项目的选择标准。

我知道我们不能选择任何7个因素,而是需要进行一些分析或数学计算来选择影响数据的最佳7个因素。我打算用软件Weka(j48算法)进行数据挖掘。另外我在excel中有XLminer插件。那么,我如何才能提出这些最佳7个因素

一旦决策树由这7个因素组成,我必须编写一个简单的java程序,在7个不同的文本框中输入这7个值时演示输出。

1 个答案:

答案 0 :(得分:0)

看看决策树。

在每个级别,决策树都会尝试选择最重要的属性;他们提供了许多指标来评估选择哪个属性......研究这些。