我的数据集中有11个类/类别。对于每个班级,都有一些实例分配给它。我需要知道每个类别Weka提取的属性/单词以及分配给每个属性的数值。有没有办法做到这一点?
答案 0 :(得分:0)
这是Weka TRAINING和CLASSIFY的arff文件格式示例:
在这种情况下,我正在讨论Semeval 2014西班牙语比赛中使用的文件的一部分...
@relation Task10EnglishS2014
@attribute PathLenAlign numeric
@attribute ResAlign numeric
@attribute LcAlign numeric
@attribute WupAlign numeric
@attribute Res numeric
@attribute Lc numeric
@attribute DiceSimilarityAttribute numeric
@attribute NumericEvaluation numeric
@data
1,9.5852985,3.637587,1,8.0142254,3.637587,0.75,5.000
1,9.20881283333333,3.637587,1,8.3916004,3.637587,1,5.000
0.625,2.812914,2.754695,0.761905,2.812914,2.754695,0.5,0.292893218813452,0.300
...
零碎:
@relation Task10EnglishS2014
@relation +集合或实验的名称
@attribute LcAlign numeric
@attribute +属性名称+属性类型
@data
从这里开始为每个输入启动实例或值向量。
这是训练集,用于训练模型以对新实例进行分类。 在Weka explorer中,我们需要在Preprocess选项卡中加载此文件。在“分类”选项卡中,您需要选择一个分类器,并使用10个折叠设置交叉验证,然后单击“开始”按钮。这将生成一个受过训练的模型。
arff分类文件必须具有以下结构:
@relation Task10EnglishS2014
@attribute PathLenAlign numeric
@attribute ResAlign numeric
@attribute LcAlign numeric
@attribute WupAlign numeric
@attribute Res numeric
@attribute Lc numeric
@attribute DiceSimilarityAttribute numeric
@attribute NumericEvaluation numeric
@data
1,9.5852985,3.637587,1,8.0142254,3.637587,0.75,?
1,9.20881283333333,3.637587,1,8.3916004,3.637587,1,?
0.625,2.812914,2.754695,0.761905,2.812914,2.754695,0.5,0.292893218813452,?
...
? simbol意味着这是分类的价值。
他们必须选择以下选项:"提供的测试集"并选择要分类的文件并在"模式选项..."选择"输出预测"然后右键单击模型并选择"在当前测试集上重新评估模型"。 在右侧面板中,结果可视化。