我正在使用weka工具尝试从数据集生成一组分类规则。数据集当前是以下形式的.txt文件:
webpage attr1 attr2 attr3.....attrn type try.html 1 2 3.....
(每个单词用标签分隔)
如何将此转换为适合weka的输入文件?
我尝试将其转换为csv然后再转换为arff格式,但它不起作用并且不断给我一个错误header stream is invalid
或attribute names are not unique
。
答案 0 :(得分:2)
ARFF文件具有以下格式:
@RELATION aNameForTheRelation
@ATTRIBUTE attr_0 TYPE
@ATTRIBUTE attr_1 TYPE
% ... (this' a comment)
@ATTRIBUTE attr_N TYPE
@DATA
sample_0_attr_0_v,sample_0_attr_1_v,...,sample_0_attr_N_v
sample_1_attr_1_v,sample_1_attr_1_v,...,sample_1_attr_N_v
% ...
sample_M_attr_1_v,sample_M_attr_1_v,...,sample_M_attr_N_v
它基本上可以是带有标题的CSV文件。您是否尝试手动编写ARFF文件的标题并附加CSV文件信息?也许自动化工具无法检测到生成的ARFF中属性的正确命名