我是数据挖掘(文本聚类)研究领域的新手,我对训练和测试数据集有几个问题。
对不起新手问题希望这个小组的专家可以帮助我。
答案 0 :(得分:6)
正如您的问题是关于群集:
在群集分析中,通常没有培训或测试数据分割。
因为当您没有标签时进行聚类分析,所以您无法“训练”。
训练是机器学习的概念,训练测试分裂用于避免过度拟合。
但如果你没有学习标签,就不能过度适应。
正确使用的群集分析是知识发现方法。您希望在数据中发现一些新结构,而不是重新发现已标记的内容。
答案 1 :(得分:1)
要训练您的数据,您需要一组与您的测试数据相似但不相同的相关数据。例如,您可以分割数据,其中0.7个数据正在训练,其余测试。这将使您的算法能够感受到它应该寻找的内容。其余的数据0.3可以用于测试,因为它是一组独特的信息(希望如此),它应该允许算法自我测试。
为什么要拆分它? 好吧,如果您在数据A上训练您的数据,然后在数据A上测试您的算法,您的算法将能够正确识别所有信息,因为这是它所训练的。
例如,如果在学习加法时你得到了3 + 4,4 + 5,6 + 9的和,你正确地解决了它,那么使用相同的总和测试你的加法知识是多余的。
进一步的信息:
http://en.wikipedia.org/wiki/Natural_language_processing
希望这会有所帮助。