不一定要深入了解它的代码,而是将重点更多地放在原则上,我对我认为不适合的问题有疑问。
如果我正在训练一个网络,该网络可以识别图像是狗的真假,那么我可能有40,000张图像,其中所有狗图像都标记为1,所有其他图像都标记为0-我如何确保准确性,以便如果其中只有5,000张图像是狗,则网络不会因训练而“懒惰”地动作,并且还会将狗标记为比0更接近1?
例如,此问题的主要目的是能够高精度地识别图像是否真的是狗的图像,而不是真正关心其他图像,除了它们不是狗的事实之外。另外,我希望能够保留猜测正确的可能性,因为这对我而言非常重要。
我唯一能想到的两件事是:
但是我认为第二种选择可能会给狗狗带来不成比例的很大机会,使其成为测试数据的输出,这将破坏该网络的准确性和整个目的。
我确信以前已经解决了这个问题,所以即使朝着正确的方向迈出了第一步,也将受到高度赞赏!