Libsvm数据集格式中的样本含义(特别是Mnist)

时间:2011-09-18 19:53:55

标签: dataset machine-learning libsvm

我从Libsvm's dataset page下载了Mnist数据集。 所有样本如下:

5 153:3 154:18 155:18 156:18 157:126 ...

有谁知道这意味着什么? 5是类标签,但例如153:3对是什么?我也找不到mnist's own web page的含义。

1 个答案:

答案 0 :(得分:7)

这是libsvm编码(稀疏)向量的方式。正如您所说5是标签,以下对i:v表示向量的i条目是v。因此,您将三维矢量(a,b,c)编码为

1:a 2:b 3:c

对于密集向量而言,这是低效的,但对于稀疏数据而言,这是一种良好且已建立的格式。由于它是纯文本,因此存储空间不是最佳的,但对于大多数应用程序来说已经足够好了。而文件易于编写和阅读。