为什么我们需要在研究中培训和测试数据集?

时间:2012-11-15 09:20:15

标签: cluster-analysis

我是数据挖掘(文本聚类)研究领域的新手,我对训练和测试数据集有几个问题。

  1. 群集是否需要培训和测试数据集?
  2. 为什么我们需要分成培训和测试数据集?
  3. 对不起新手问题希望这个小组的专家可以帮助我。

2 个答案:

答案 0 :(得分:6)

正如您的问题是关于群集:

在群集分析中,通常没有培训或测试数据分割

因为当您没有标签时进行聚类分析,所以您无法“训练”。

训练是机器学习的概念,训练测试分裂用于避免过度拟合

如果你没有学习标签,就不能过度适应

正确使用的群集分析是知识发现方法。您希望在数据中发现一些新结构,而不是重新发现已标记的内容。

答案 1 :(得分:1)

  1. 要训练您的数据,您需要一组与您的测试数据相似但不相同的相关数据。例如,您可以分割数据,其中0.7个数据正在训练,其余测试。这将使您的算法能够感受到它应该寻找的内容。其余的数据0.3可以用于测试,因为它是一组独特的信息(希望如此),它应该允许算法自我测试。

  2. 为什么要拆分它? 好吧,如果您在数据A上训练您的数据,然后在数据A上测试您的算法,您的算法将能够正确识别所有信息,因为这是它所训练的。

  3. 例如,如果在学习加法时你得到了3 + 4,4 + 5,6 + 9的和,你正确地解决了它,那么使用相同的总和测试你的加法知识是多余的。

    进一步的信息:

    http://en.wikipedia.org/wiki/Natural_language_processing

    http://www.nltk.org/book

    希望这会有所帮助。