如何为weka工具获取合适的输入文件格式?

时间:2011-04-08 04:03:08

标签: file text weka

我正在使用weka工具尝试从数据集生成一组分类规则。数据集当前是以下形式的.txt文件:

webpage attr1 attr2 attr3.....attrn type
try.html  1     2    3.....

(每个单词用标签分隔)

如何将此转换为适合weka的输入文件? 我尝试将其转换为csv然后再转换为arff格式,但它不起作用并且不断给我一个错误header stream is invalidattribute names are not unique

1 个答案:

答案 0 :(得分:2)

ARFF文件具有以下格式:

@RELATION aNameForTheRelation

@ATTRIBUTE attr_0 TYPE
@ATTRIBUTE attr_1 TYPE
% ... (this' a comment)
@ATTRIBUTE attr_N TYPE

@DATA
sample_0_attr_0_v,sample_0_attr_1_v,...,sample_0_attr_N_v
sample_1_attr_1_v,sample_1_attr_1_v,...,sample_1_attr_N_v
% ...
sample_M_attr_1_v,sample_M_attr_1_v,...,sample_M_attr_N_v

它基本上可以是带有标题的CSV文件。您是否尝试手动编写ARFF文件的标题并附加CSV文件信息?也许自动化工具无法检测到生成的ARFF中属性的正确命名