所以我目前正在完成我的Udacity纳米学位,这是我无法理解的一点。 在输入层中,我们采用784,因为MNIST数据集的像素为28x28,但是我不明白为什么他们要采用256个隐藏层。这256个数字是哪里来的?
答案 0 :(得分:0)
256个隐藏层表示每个像素的0到255值,以表示该像素的颜色饱和度。
答案 1 :(得分:0)
隐藏层中的单位数是网络的超参数,因此就像其他任何超参数(如学习率,正则化因子等)一样,最初都可以任意选择它,然后通过评估来“调整”其值模型在验证集上的表现。
尽管有时,尤其是在像MNIST这样的小型且人为的示例中,鉴于手头的任务多么简单,某些超参数是一劳永逸的,而且永远都不会进行调整。所以,是的,数字256是被任意选择的。