weka中可用的哪些算法会自动加权数据集的功能?

时间:2012-10-19 23:24:23

标签: algorithm machine-learning weka

我有一个包含5到10个功能的数据集。输出值是标量值。 (所以我看起来像线性回归,而不是分类器)。某些功能比其他功能更重要,某些功能组合可以产生很大的效果。

根据这些要求,在Weka中构建的算法是不错的候选者?

2 个答案:

答案 0 :(得分:4)

您是否在Weka Explorer中尝试“选择属性”标签? InfoGainAttributeEval和CorrelationAtrributeEval是我经常开始使用的两个有用的特征选择方法。

以下是针对我的数据集的InfoGainAttributeEval的示例输出。第一列按降序列出每个属性的重要性。

Ranked attributes:
0.02416    8 attr8
0.014166  16 attr16
0.012868  14 attr14
0.011905  15 attr15
0.011624   6 attr6
0.010619   1 attr1
0.010367   3 attr3
0.010171   5 attr5
0.008921   7 attr7
0.008763  11 attr11
0.006094   9 attr9
0.00603   10 attr10
0.003089   4 attr4
0.00095   12 attr12
0.000672   2 attr2
0.000127  13 attr13

Selected attributes: 8,16,14,15,6,1,3,5,7,11,9,10,4,12,2,13 : 16

如果您有兴趣,请参阅以下链接,获取有关基于相关性的特征选择的经典论文: http://www.cs.waikato.ac.nz/~mhall/thesis.pdf

答案 1 :(得分:1)

Weka有一组“Classifier”执行回归(它们在Weka术语中输出数字“类”)。在Weka GUI中,如果您选择数字属性作为“类”,您将看到它们。

其中有weka.classifiers.functions.SimpleLinearRegression,它完全按照它所说的做法。 Weka还有更复杂的回归引擎,例如MultilayerPerceptron