火车/测试 - 无监督学习中的分裂是必要/有用的吗?

时间:2015-07-28 10:14:17

标签: machine-learning unsupervised-learning

在监督学习中,我有典型的训练/测试分割来学习算法,例如:回归或分类。关于无监督学习,我的问题是:火车/测试分割是否必要且有用?如果是,为什么?

2 个答案:

答案 0 :(得分:0)

那么这取决于问题,数据集的形式和用于解决特定问题的无监督算法类。

大致为: - 维度降低技术通常通过计算重建中的误差来测试,因此我们可以使用k-fold交叉验证程序

但是对于聚类算法,我建议进行统计测试以测试性能。还有一些耗时的技巧,即分割数据集并用有意义的类手动标记测试集并交叉验证

在任何情况下,无监督算法都用于监督数据,那么它总是很好的交叉验证

总体而言: - 没有必要在列车测试集中拆分数据,但如果我们可以做到这一点总是更好

这篇文章解释了交叉验证如何成为无监督学习的好工具 http://udini.proquest.com/view/cross-validation-for-unsupervised-pqid:1904931481/ http://arxiv.org/pdf/0909.3052.pdf和全文https:///www.researchgate.net/post/Which_are_the_methods_to_validate_an_unsupervised_machine_learning_algorithm

https://github.com/SDasman/Angular_Protractor_End2End_Tests/tree/master/LinkCheck

答案 1 :(得分:0)

绝对有用。

我对“为什么”一无所知。

测试模型时,应该始终在看不见的数据上执行。因此,最好使用train_test_split分散数据。

第二种情况是数据应始终按格式进行混洗。否则,在拟合模型时可能会产生n-1类型的数据,但效果不佳。