为什么分配相同?机器学习

时间:2018-11-02 16:06:07

标签: machine-learning

我是机器学习的新手,在一篇论文中我找到了这个短语,但我无法完全理解。

这是短语:“训练和测试数据来自相同的特征空间和相同的分布”。

我想问的是为什么这件事必须如此重要,以及如果违反该事会发生什么。有人可以用一个例子或其他方式向我解释一下吗?

谢谢。

1 个答案:

答案 0 :(得分:0)

最好知道您指的是哪篇论文和哪一部分...

TL; DR;: :如果数据属于相同的特征空间和相同的分布,则可以对该算法进行测试,以了解本应实际学习的数据。信息不一致会产生假阳性/阴性,很可能会使您的算法无法收敛。

较长版本:

在训练算法(例如反向传播的神经网络)时,您将从一组数据开始。然后将这些数据分为两组:训练数据(如果是数据,通常为70-80%)和测试数据:(通常是数据的20-30%)。

所有这些数据应具有相同的结构,并应从稳定的系统中收集,这意味着在检查输入和输出时,理想情况下应保持系统的内部运行不变。

如果您的数据满足这些条件,则可以在相似且一致的数据上测试您的框架。突然增加2个额外的字段可能会使连接起来很困难,或者您可以直接忽略它们,但这可能是蠕虫本身。