道歉,因为我对Weka来说是一个完整的新手。
我有100个实例,每个实例有400个属性,其中大部分都有一个值。但是,某些属性具有多个值,因为它们包含时间组件。我想知道Weka是否可以分析一个属性的多个值,如果是,我如何分离这些值以便weka可以读取它们(例如逗号,分号?)
非常感谢您的帮助
[R
答案 0 :(得分:4)
Weka本身使用了一种名为arff acronym for Attribute-Relation的格式 文件格式。这种格式由三部分组成一个明显不同的结构:
1.Head。此处,定义了关系的名称。其格式如下:
relation <name-of-the-relationship>
String类型的位置。如果这个名字包含一些 空格将放在引号之间。
<强> 2。属性语句。本节描述了声明构成我的文件的属性的类型。语法是:
attribute <attribute-name> <type>
具有相同限制的String类型 如上。
Weka接受各种类型,包括:
a)NUMERIC 。实数*
b)INTEGER。
c)DATE。日期,要做到这种情况,应该在标签引用格式之前。 标签格式由分隔符(连字符)组成 和/或空格)和时间单位: dd Day。 MM月。 yyyy年。 HH小时。 毫米分钟。 秒秒。
d)STRING。。具有String类型的限制评论 先前。
e)列出此类型的标识符用括号表示并分隔 逗号可能的值(或字符串) 属性。例如,如果我们有一个属性指示可以定义时间:
attribute time {sunny, rainy, cloudy}
第3。数据部分。声明构成分隔属性和换行符关系的逗号之间关系的数据。
数据
4,3.2
虽然这是&#34;完整&#34;模式可以以简短形式定义数据(稀疏数据)。如果我们有一个样本,其中有很多数据,我们可以表示0数据,省略那些零项,围绕大括号中的每一行,并在每个数据前面放置属性编号。
这方面的一个例子如下:
数据
{14 1,3 3}
如果任何信息未知,则用密切询问的符号表示(&#34;?&#34;)。如果您想添加评论,请使用字符%。
因此,您可以使用多个值来构建数据集。
示例:
1 % Test Weka.
2 @relation MyTest
3
4 @attribute nombre STRING
5 @attribute ojo_izquierdo {Bien,Mal}
6 @attribute dimension NUMERIC
7 @attribute fecha_analisis DATE "dd-MM-yyyy HH:mm"
8
9 @data
10 Antonio,Bien,38.43,"12-04-2003 12:23"
11 ’Maria Jose’,?,34.53,"14-05-2003 13:45"
12 Juan,Bien,43,"01-01-2004 08:04"
13 Maria,?,?,"03-04-2003 11:03"