我想要使用Weka进行聚类的高维(200维)向量。我该如何用ARFF格式表示它?
数据是这样的(dim1,dim2等是实数):
vector_label dim1 dim2 dim3 ...... dim200
此处的链接 - http://weka.wikispaces.com/ARFF+%28stable+version%29告诉我,我应该按如下方式表示:
@RELATION vectors
@ATTRIBUTE vector_label STRING
@ATTRIBUTE dim1 NUMERIC
@ATTRIBUTE dim2 NUMERIC
@ATTRIBUTE dim3 NUMERIC
....
@ATTRIBUTE dim200 NUMERIC
@DATA
vector1,0.1,0.2,-2.1, ...... ,-0.1
等等。
这是对的吗? 我之所以提出这个问题的原因是这个链接并没有真正说明任何关于高维向量的内容,但我觉得可能有一种更好的表达方式,我不知道。< / p>
答案 0 :(得分:1)
这种表述是正确的。当你有更多或更少的维度时,ARFF表示没有特别的区别。
但是,如果向量是稀疏的(大多数向量中的大多数维度值为零,则可能需要使用Sparse ARFF表示,这样更紧凑并节省磁盘空间和内存。 / p>
答案 1 :(得分:1)
如果您的数据不稀疏,您的示例就更正了。如果您的数据稀疏,请使用sparse arff file format。 可以找到一个示例here