我从Libsvm's dataset page下载了Mnist数据集。 所有样本如下:
5 153:3 154:18 155:18 156:18 157:126 ...
有谁知道这意味着什么? 5
是类标签,但例如153:3
对是什么?我也找不到mnist's own web page的含义。
答案 0 :(得分:7)
这是libsvm
编码(稀疏)向量的方式。正如您所说5
是标签,以下对i:v
表示向量的i
条目是v
。因此,您将三维矢量(a,b,c)编码为
1:a 2:b 3:c
对于密集向量而言,这是低效的,但对于稀疏数据而言,这是一种良好且已建立的格式。由于它是纯文本,因此存储空间不是最佳的,但对于大多数应用程序来说已经足够好了。而文件易于编写和阅读。