Training and Test evaluation for Clustering in R

时间:2016-08-13 13:24:11

标签: r cluster-analysis topic-modeling

I am trying to implement something similar to @bens code here in R. I am working with unstructured news articles and want to do clustering on them after doing topic modeling I tried to execute the code provided by @ben and it worked. I wanted to know how can I divide the data in train and test and predict the clusters for test data, then evaluate how the test data was clustered may be using Mean avg precision.

I know this becomes semi-unsupervised and not unsupervised but I want to try it to see the results.

1 个答案:

答案 0 :(得分:0)

半监督意味着您优化(!)聚类以产生"最佳"结果在您拥有标签的数据上,并期望它也可以很好地聚集未标记的数据。根据您的数据,这很难发挥作用。例如,使用k-means,您可能会优化k以匹配已知集群的数量,但是尚未知道的集群呢?

如果您只是希望看到Zow,那么您的聚类方法可以正常运行,您不需要进行列车测试拆分。这有助于在优化参数时避免过度拟合(并且在此范围内,对您的实际性能过于乐观)。当不使用方法中的标签时(如在聚类中)并且也没有在参数化中使用标签,那么您可以简单地执行所谓的"外部评估"。您可以将标签重新添加到数据集中,并评估群集与标签的一致程度。

但要注意,即使他们不同意您的标签,群集也可能很好。例如,您的标签migjt是" olympics",但是群集产生了一个群集,用于游泳"。它是一个很好的集群,即使它将你提供的标签分开(有人甚至认为它很好因为它会这样做,它会改善你的标签!)。

如果您的所有数据都已标记,请始终更喜欢分类!不要尝试优化聚类以模拟分类。