在“Machine Learning - A Probabilistic Perspective" by Kevin P. Murphy书中,第一个任务是:
在混洗的MNIST数据上练习1.1 KNN分类器
运行mnist1NNdemo 并验证错误分类率(在前1000次测试中) (1)NN分类器的MNIST为3.8%。 (如果你全部运行它 所有10,000个测试用例,错误率为3.09%。)修改代码 你首先随机地置换功能(训练的列 并测试设计矩阵),如shuffledDigitsDemo,然后应用 分类器。验证错误率未更改。
我的简单理解是练习在加载文件后寻找1-NN(R中的kNN())。
文件:
train-images-idx3-ubyte.gz:训练集图像(9912422字节)
train-labels-idx1-ubyte.gz:训练集标签(28881字节)
t10k-images-idx3-ubyte.gz:测试集图像(1648877字节)
t10k-labels-idx1-ubyte.gz:测试集标签(4542字节)
我找到了popular template来加载文件:
# for the kNN() function
library(VIM)
load_mnist <- function() {
load_image_file <- function(filename) {
ret = list()
f = file(filename,'rb')
readBin(f,'integer',n=1,size=4,endian='big')
ret$n = readBin(f,'integer',n=1,size=4,endian='big')
nrow = readBin(f,'integer',n=1,size=4,endian='big')
ncol = readBin(f,'integer',n=1,size=4,endian='big')
x = readBin(f,'integer',n=ret$n*nrow*ncol,size=1,signed=F)
ret$x = matrix(x, ncol=nrow*ncol, byrow=T)
close(f)
ret
}
load_label_file <- function(filename) {
f = file(filename,'rb')
readBin(f,'integer',n=1,size=4,endian='big')
n = readBin(f,'integer',n=1,size=4,endian='big')
y = readBin(f,'integer',n=n,size=1,signed=F)
close(f)
y
}
train <<- load_image_file("train-images.idx3-ubyte")
test <<- load_image_file("t10k-images.idx3-ubyte")
train$y <<- load_label_file("train-labels.idx1-ubyte")
test$y <<- load_label_file("t10k-labels.idx1-ubyte")
}
show_digit <- function(arr784, col=gray(12:1/12)) {
image(matrix(arr784, nrow=28)[,28:1], col=col)
}
根据评论,在命令行中这应该有效:
# Error "Error in matrix(arr784, nrow = 28) : object 'train' not found"
show_digit(train$x[5,])
问题是如何使用show_digit函数?
修改删除额外问题