应用错误收集

时间：2012-11-15 09:20:15

标签： cluster-analysis

我是数据挖掘（文本聚类）研究领域的新手，我对训练和测试数据集有几个问题。

对不起新手问题希望这个小组的专家可以帮助我。

答案 0 :(得分：6)

正如您的问题是关于群集：

在群集分析中，通常没有培训或测试数据分割。

因为当您没有标签时进行聚类分析，所以您无法“训练”。

训练是机器学习的概念，训练测试分裂用于避免过度拟合。

但如果你没有学习标签，就不能过度适应。

正确使用的群集分析是知识发现方法。您希望在数据中发现一些新结构，而不是重新发现已标记的内容。

答案 1 :(得分：1)

要训练您的数据，您需要一组与您的测试数据相似但不相同的相关数据。例如，您可以分割数据，其中0.7个数据正在训练，其余测试。这将使您的算法能够感受到它应该寻找的内容。其余的数据0.3可以用于测试，因为它是一组独特的信息（希望如此），它应该允许算法自我测试。
为什么要拆分它？好吧，如果您在数据A上训练您的数据，然后在数据A上测试您的算法，您的算法将能够正确识别所有信息，因为这是它所训练的。

例如，如果在学习加法时你得到了3 + 4,4 + 5,6 + 9的和，你正确地解决了它，那么使用相同的总和测试你的加法知识是多余的。

进一步的信息：

希望这会有所帮助。