标签: dataset
我有一个24小时流量的数据集。我正在使用60%的培训和40%的测试。我在两组中都观察到一些类似的实例。我想知道,测试集和训练集应该完全不同吗?
答案 0 :(得分:0)
是的,他们应该。否则,当您的模型将在训练数据上进行训练并在测试数据集中看到类似的数据时,它将“提高”准确性。但是对于其他数据(其中不包含火车集合的重复数据),它可以具有更高的爱好者准确度。