训练神经网络与相同的训练样例不好的做法?

时间:2016-04-28 07:33:40

标签: neural-network

训练神经网络,其中N个训练样例包含相同的属性和分类。例如:

训练示例1 = [1,1,1,1],分类= [1]

训练示例2 = [1,1,1,1],分类= [1]

由于它不会对神经网络的整体质量产生影响,因此浪费了“训练示例2”的训练时间训练?

2 个答案:

答案 0 :(得分:0)

最佳做法是使用常见训练样例的一个例子是word2vec。有关详细信息,请参阅此链接。

https://www.quora.com/How-does-sub-sampling-of-frequent-words-work-in-the-context-of-Word2Vec

答案 1 :(得分:0)

我认为,如果它不会对你的学习过程造成很大的伤害,那么就会把它们留在训练集中。背后的原因如下:

  1. 通常 - 学习神经网络的过程有概率论解释。您正在学习一些条件分布P(y|x)。在这种情况下,显而易见的是,您拥有的学习示例越多,您将获得更准确的近似值。
  2. 您的数据通常不是y = f(x)的功能形式。在这种情况下,您需要处理不确定性。在这种情况下,您拥有的示例越多 - 您对预测的确定性就越高。
  3. 在某些评论中有人说如果是每个例子在数据集中出现两次,那么这可能是多余的。但是,检查您的数据是否来自此类分发是显而易见的,或者计算成本太高,无法检查。所以你不应该关心这个。