一个weka属性的多个值

时间:2016-01-13 16:36:30

标签: weka

道歉,因为我对Weka来说是一个完整的新手。

我有100个实例,每个实例有400个属性,其中大部分都有一个值。但是,某些属性具有多个值,因为它们包含时间组件。我想知道Weka是否可以分析一个属性的多个值,如果是,我如何分离这些值以便weka可以读取它们(例如逗号,分号?)

非常感谢您的帮助

[R

1 个答案:

答案 0 :(得分:4)

Weka本身使用了一种名为arff acronym for Attribute-Relation的格式 文件格式。这种格式由三部分组成一个明显不同的结构:

1.Head。此处,定义了关系的名称。其格式如下:

relation <name-of-the-relationship>

String类型的位置。如果这个名字包含一些 空格将放在引号之间。

<强> 2。属性语句。本节描述了声明构成我的文件的属性的类型。语法是:

attribute <attribute-name> <type>

具有相同限制的String类型 如上。

Weka接受各种类型,包括:

a)NUMERIC 。实数*

b)INTEGER。

c)DATE。日期,要做到这种情况,应该在标签引用格式之前。 标签格式由分隔符(连字符)组成 和/或空格)和时间单位: dd Day。 MM月。 yyyy年。 HH小时。 毫米分钟。 秒秒。

d)STRING。。具有String类型的限制评论 先前。

e)列出此类型的标识符用括号表示并分隔 逗号可能的值(或字符串) 属性。例如,如果我们有一个属性指示可以定义时间:

attribute time {sunny, rainy, cloudy}

第3。数据部分。声明构成分隔属性和换行符关系的逗号之间关系的数据。

  

数据

     

4,3.2

虽然这是&#34;完整&#34;模式可以以简短形式定义数据(稀疏数据)。如果我们有一个样本,其中有很多数据,我们可以表示0数据,省略那些零项,围绕大括号中的每一行,并在每个数据前面放置属性编号。

这方面的一个例子如下:

  

数据

     

{14 1,3 3}

如果任何信息未知,则用密切询问的符号表示(&#34;?&#34;)。如果您想添加评论,请使用字符%。

因此,您可以使用多个值来构建数据集。

示例:

1 % Test Weka.
2 @relation MyTest
3
4 @attribute nombre STRING
5 @attribute ojo_izquierdo {Bien,Mal}
6 @attribute dimension NUMERIC
7 @attribute fecha_analisis DATE "dd-MM-yyyy HH:mm"
8
9 @data
10 Antonio,Bien,38.43,"12-04-2003 12:23"
11 ’Maria Jose’,?,34.53,"14-05-2003 13:45"
12 Juan,Bien,43,"01-01-2004 08:04"
13 Maria,?,?,"03-04-2003 11:03"