MovieLens 100k数据集缺少验证集吗?

时间:2012-09-25 18:48:57

标签: validation

MovieLens 100k数据集提供五对训练和测试集,用于5倍交叉验证。但是,我了解到在测试集上进行测试之前应该使用验证集,以获得最佳参数值。

我假设在原始拆分中,五个“测试集”实际上是验证集。如果这是真的,那么就没有可以测试模型性能的“测试集”。那么我是否应该重新拆分MovieLens数据以执行声音训练验证测试过程?

谢谢!

1 个答案:

答案 0 :(得分:0)

在影片集中,你实际上有两个测试选项。

第一个选项: 用户分为5组,每组中也分为基组和测试组。 基组用于“训练”您的算法,以及要测试的测试组。您有5个不同的组,因此您可以进行5次学习和测试过程,并最终获得各种组的统计信息。

第二种选择: 100k套装中的每个用户都有20个评级。在第二种情况下,您有两组a和b。 每个用户在a上有10个评级,在b上有10个评级。因此,您可以从集合a中学习,然后尝试猜测并比较集合b。

当然,拥有完整的设置,您也可以根据需要设置自己的组!