如何从Weka获取每个类的属性

时间:2015-04-24 15:50:41

标签: weka document-classification

我的数据集中有11个类/类别。对于每个班级,都有一些实例分配给它。我需要知道每个类别Weka提取的属性/单词以及分配给每个属性的数值。有没有办法做到这一点?

1 个答案:

答案 0 :(得分:0)

这是Weka TRAINING和CLASSIFY的arff文件格式示例:

在这种情况下,我正在讨论Semeval 2014西班牙语比赛中使用的文件的一部分...

@relation Task10EnglishS2014

@attribute PathLenAlign numeric

@attribute ResAlign numeric

@attribute LcAlign numeric
@attribute WupAlign numeric
@attribute Res numeric
@attribute Lc numeric
@attribute DiceSimilarityAttribute numeric
@attribute NumericEvaluation numeric
@data
1,9.5852985,3.637587,1,8.0142254,3.637587,0.75,5.000
1,9.20881283333333,3.637587,1,8.3916004,3.637587,1,5.000
0.625,2.812914,2.754695,0.761905,2.812914,2.754695,0.5,0.292893218813452,0.300
...

零碎:

@relation Task10EnglishS2014

@relation +集合或实验的名称

@attribute LcAlign numeric

@attribute +属性名称+属性类型

@data

从这里开始为每个输入启动实例或值向量。

这是训练集,用于训练模型以对新实例进行分类。 在Weka explorer中,我们需要在Preprocess选项卡中加载此文件。在“分类”选项卡中,您需要选择一个分类器,并使用10个折叠设置交叉验证,然后单击“开始”按钮。这将生成一个受过训练的模型。

arff分类文件必须具有以下结构:

@relation Task10EnglishS2014

@attribute PathLenAlign numeric

@attribute ResAlign numeric

@attribute LcAlign numeric
@attribute WupAlign numeric
@attribute Res numeric
@attribute Lc numeric
@attribute DiceSimilarityAttribute numeric
@attribute NumericEvaluation numeric
@data
1,9.5852985,3.637587,1,8.0142254,3.637587,0.75,?
1,9.20881283333333,3.637587,1,8.3916004,3.637587,1,?
0.625,2.812914,2.754695,0.761905,2.812914,2.754695,0.5,0.292893218813452,?
...

? simbol意味着这是分类的价值。

他们必须选择以下选项:"提供的测试集"并选择要分类的文件并在"模式选项..."选择"输出预测"然后右键单击模型并选择"在当前测试集上重新评估模型"。 在右侧面板中,结果可视化。