ARFF文件的“数据”部分可以使用空格而不是逗号吗?

时间:2014-04-19 11:47:34

标签: csv machine-learning weka arff

我有一个包含表格形式属性的大型数据集,如下所示

userid movieid rating

2         34    5
4         11    3

我需要将这些值输入到ARFF文件的数据部分,以便使用weka软件进行机器学习分析。但是arff支持的正常格式如下

  5.1,3.5,1.4,0.2,Iris-setosa
   4.9,3.0,1.4,0.2,Iris-setosa
   4.7,3.2,1.3,0.2,Iris-setosa
   4.6,3.1,1.5,0.2,Iris-setosa

属性以逗号分隔。是否总是需要逗号或者是否可以用空格或制表符分隔它?

1 个答案:

答案 0 :(得分:0)

数据部分的每个实例的属性值始终以逗号(ARFF developer version)分隔:

  

每个实例都在一行上表示,并带有回车符   表示实例的结尾。百分号(%)引入了一个   评论,继续到最后一行。

     

每个实例的属性值都以逗号分隔。一个逗号   可以跟随零或更多空格。必须出现属性值   按照在标题部分中声明它们的顺序(即,   对应于第n个@attribute声明的数据始终是   属性的第n个字段)。

     

缺失值由单个问号

表示

在类似情况下,我发现weka-convert(Python命令行实用程序)非常有用。