我是机器学习的新手,在一篇论文中我找到了这个短语,但我无法完全理解。
这是短语:“训练和测试数据来自相同的特征空间和相同的分布”。
我想问的是为什么这件事必须如此重要,以及如果违反该事会发生什么。有人可以用一个例子或其他方式向我解释一下吗?
谢谢。
答案 0 :(得分:0)
最好知道您指的是哪篇论文和哪一部分...
TL; DR;: :如果数据属于相同的特征空间和相同的分布,则可以对该算法进行测试,以了解本应实际学习的数据。信息不一致会产生假阳性/阴性,很可能会使您的算法无法收敛。
较长版本:
在训练算法(例如反向传播的神经网络)时,您将从一组数据开始。然后将这些数据分为两组:训练数据(如果是数据,通常为70-80%)和测试数据:(通常是数据的20-30%)。
所有这些数据应具有相同的结构,并应从稳定的系统中收集,这意味着在检查输入和输出时,理想情况下应保持系统的内部运行不变。
如果您的数据满足这些条件,则可以在相似且一致的数据上测试您的框架。突然增加2个额外的字段可能会使连接起来很困难,或者您可以直接忽略它们,但这可能是蠕虫本身。