训练神经网络,其中N个训练样例包含相同的属性和分类。例如:
训练示例1 = [1,1,1,1],分类= [1]
训练示例2 = [1,1,1,1],分类= [1]
由于它不会对神经网络的整体质量产生影响,因此浪费了“训练示例2”的训练时间训练?
答案 0 :(得分:0)
最佳做法是使用常见训练样例的一个例子是word2vec。有关详细信息,请参阅此链接。
https://www.quora.com/How-does-sub-sampling-of-frequent-words-work-in-the-context-of-Word2Vec
答案 1 :(得分:0)
我认为,如果它不会对你的学习过程造成很大的伤害,那么就会把它们留在训练集中。背后的原因如下:
P(y|x)
。在这种情况下,显而易见的是,您拥有的学习示例越多,您将获得更准确的近似值。y = f(x)
的功能形式。在这种情况下,您需要处理不确定性。在这种情况下,您拥有的示例越多 - 您对预测的确定性就越高。