我有英国道路事故数据,数据量非常大,有100万条记录和约66个因素,如年龄,性别,速度限制,光线,事故影响等。所以,我的教授希望我选择最好的7个因素,但他没有说出我最终项目的选择标准。
我知道我们不能选择任何7个因素,而是需要进行一些分析或数学计算来选择影响数据的最佳7个因素。我打算用软件Weka(j48算法)进行数据挖掘。另外我在excel中有XLminer插件。那么,我如何才能提出这些最佳7个因素?
一旦决策树由这7个因素组成,我必须编写一个简单的java程序,在7个不同的文本框中输入这7个值时演示输出。
答案 0 :(得分:0)
看看决策树。
在每个级别,决策树都会尝试选择最重要的属性;他们提供了许多指标来评估选择哪个属性......研究这些。