确定最能影响结果的属性

时间:2014-11-17 16:20:59

标签: classification weka data-mining decision-tree unsupervised-learning

我有一个.csv格式的数据集,如下所示:

NRC_CLASS,L1_MARKS_FINAL,L2_MARKS_FINAL,L3_MARKS_FINAL,S1_MARKS_FINAL,S2_MARKS_FINAL,S3_MARKS_FINAL,
FAIL,7,12,12,24,4,30,
PASS,49,36,46,51,31,56,
FAIL,59,35,42,18,18,45,
PASS,61,30,51,33,30,52,
PASS,68,30,35,53,45,54,
2,82,77,75,32,36,56,
FAIL,18,35,35,32,21,35,
2,86,56,46,44,37,60,
1,94,45,62,70,50,59,

第一栏谈论全部成绩:

FAIL - Fail
PASS - Pass class
1 - First class
2 - Second class
D - Distinction

然后是6个科目中每个学生的分数。

无论如何,我能找出哪个主题会对整体结果产生影响的表现?

我正在使用Weka并使用J48构建树。

J48分类器的摘要是:

=== Summary ===

Correctly Classified Instances       30503               92.5371 %
Incorrectly Classified Instances      2460                7.4629 %
Kappa statistic                          0.902 
Mean absolute error                      0.0332
Root mean squared error                  0.1667
Relative absolute error                 10.8867 %
Root relative squared error             42.7055 %
Total Number of Instances            32963 

我还将标记数据离散化为10个bin,并将useEqualFrequency设置为true。 J48的摘要现在是:

=== Summary ===

Correctly Classified Instances       28457               86.3301 %
Incorrectly Classified Instances      4506               13.6699 %
Kappa statistic                          0.8205
Mean absolute error                      0.0742
Root mean squared error                  0.2085
Relative absolute error                 24.3328 %
Root relative squared error             53.4264 %
Total Number of Instances            32963 

3 个答案:

答案 0 :(得分:0)

首先,您可能需要量化每个NRC_CLASS值的值(或者甚至更好,使用100中的实际等级)来提高属性测试的质量。

从那里,您可以使用属性选择(在Weka Explorer的“选择属性”选项卡中找到)来查找对整体成绩影响最大的属性。也许将CorrelationAttributeEval作为属性评估器与Ranker搜索方法相结合,可以帮助识别最重要的属性。

希望这有帮助!

答案 1 :(得分:0)

似乎您想确定每个属性的相对相关性。在这种情况下,您需要使用权重学习算法。 Weka有几个,我只是用过Relief。转到选择属性选项卡,在属性评估器中,选择ReliefF-AttributeEval,它将选择 选择具有结果类值的属性。 搜索方法为您。单击开始。 结果将包括排名属性,排名最高的是最相关的。

答案 2 :(得分:0)

在具有25个属性的测试数据集T中,运行i = 1:25轮,用随机值(= noise)替换第i个属性的值。将25个回合中每个回合的测试性能与未替换任何属性的情况进行比较,并确定性能下降最多的回合。

如果发生了最差的性能下降,例如在第13轮中,这表明属性13是最重要的属性。