在创建weka arff文件时,我应该如何处理未知数据

时间:2017-01-04 13:09:07

标签: weka arff

我正在尝试将我的数据集格式化为weka arff文件。这是我的arff文件的一个示例:

@relation my_relation
@attribute 'attrib_1' numeric
@attribute 'attrib_2' numeric
@attribute 'attrib_3' numeric
...
@attribute 'class' {1,2,3,4,5}
@data
6,6,55,0,0,0,18.9,0,1,2,'?',14,15,20,'?','?','?','?',28,29,1
54,25,19,4.85,0,1,10,13,'?','?','?','?','?','?',15,16,19,20,21,0,3
...

我的特征是数值和实数值,但在不同情况下(实例)每个特征都有一些缺失值。我该如何确定我的功能包含缺失值? (我使用'?'表示缺少值,但尝试打开mydata.arff时出现此错误

number expected, read token[?], line 746

修改:我改变了'?'至 ?并尝试加载该文件。这次发生以下错误:

nominal value not declared in header, read Token[86], line 746

1 个答案:

答案 0 :(得分:2)

这太长了,不适合评论。我认为我可以看到您的数据可能存在问题。它包含一些不好的字符。您可能正在网络浏览器中阅读此内容。如果是这样,请查看此页面的html源,然后向下滚动到您的数据。在Internet Explorer中,我能够将此网页保存为文本文件,然后只需在编辑器中查看文本即可查看错误字符。在整个数据的许多地方,我看到& zwnj;​这些是零宽度字符(请参阅zwnj8203。也就是说,它们是数据中存在的字符,但不会显示在屏幕上,甚至不显示为空格。因为数据包含这些虚假字符,WEKA无法读取它。请检查您的数据以查看原始字符是否包含这些隐藏字符。