狗和猫的神经网络不适合

时间:2018-06-29 19:20:28

标签: neural-network training-data bias-neuron

不一定要深入了解它的代码,而是将重点更多地放在原则上,我对我认为不适合的问题有疑问。

如果我正在训练一个网络,该网络可以识别图像是狗的真假,那么我可能有40,000张图像,其中所有狗图像都标记为1,所有其他图像都标记为0-我如何确保准确性,以便如果其中只有5,000张图像是狗,则网络不会因训练而“懒惰”地动作,并且还会将狗标记为比0更接近1?

例如,此问题的主要目的是能够高精度地识别图像是否真的是狗的图像,而不是真正关心其他图像,除了它们不是狗的事实之外。另外,我希望能够保留猜测正确的可能性,因为这对我而言非常重要。

我唯一能想到的两件事是:

  1. 网络中有更多节点,或者
  2. 其中一半图像是狗的(所以使用10,000张图像,其中5,000张是狗)。

但是我认为第二种选择可能会给狗狗带来不成比例的很大机会,使其成为测试数据的输出,这将破坏该网络的准确性和整个目的。

我确信以前已经解决了这个问题,所以即使朝着正确的方向迈出了第一步,也将受到高度赞赏!

1 个答案:

答案 0 :(得分:0)

因此您有一个二进制分类任务,其中两个类在数据集中的出现频率不同。大约1/8是“狗”,而7/8是“没有狗”。

  1. 为了避免偏向一个或另一个班级的学习,重要的是您stratify训练,验证和测试数据,以便将这些分数保留在每个子集中。

  2. 您说您想“保留猜测是正确的概率”-我假设您的意思是您想将“狗狗”概率作为输出变量进行评估。那是一个简单的softmax输出层,具有两个输出:第一个是“ dog”,第二个是“ not dog”。无论您需要区分多少类,这都是解决分类问题的典型方法。