我有一个包含表格形式属性的大型数据集,如下所示
userid movieid rating
2 34 5
4 11 3
我需要将这些值输入到ARFF文件的数据部分,以便使用weka软件进行机器学习分析。但是arff支持的正常格式如下
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
属性以逗号分隔。是否总是需要逗号或者是否可以用空格或制表符分隔它?
答案 0 :(得分:0)
数据部分的每个实例的属性值始终以逗号(ARFF developer version)分隔:
每个实例都在一行上表示,并带有回车符 表示实例的结尾。百分号(%)引入了一个 评论,继续到最后一行。
每个实例的属性值都以逗号分隔。一个逗号 可以跟随零或更多空格。必须出现属性值 按照在标题部分中声明它们的顺序(即, 对应于第n个@attribute声明的数据始终是 属性的第n个字段)。
缺失值由单个问号
表示
在类似情况下,我发现weka-convert(Python命令行实用程序)非常有用。