我有一个数据集,其中包含具有以下属性的数据点:
我是集群技术的新手。
所以我的问题是哪种聚类算法最适合这种数据形成聚类?
答案 0 :(得分:0)
我认为层次聚类是一个不错的选择。看看Clustering Algorithms
答案 1 :(得分:0)
更简单的聚类方法是使用kmeans算法。如果所有属性都是数字,那么这是进行聚类的最简单方法。即使它们不是,你也必须找到一个距离测量的角度或名义属性,但仍然kmeans是一个不错的选择。 Kmeans是一种分区聚类算法...我不会在这种情况下使用层次聚类。但这也取决于你想做什么。你需要评估你是否想要在集群内找到集群,或者它们都必须完全相互分离,而不是彼此包含在一起。
保重。
答案 2 :(得分:0)
1)首先,尝试使用k-means。如果这满足了你的需求。使用不同数量的聚类(由参数k控制)。有很多k-means的实现,如果你有很好的编程技巧,你可以实现自己的版本。
如果数据看起来像圆形/球形,K-means通常很有效。这意味着数据中存在一些高斯性(数据来自高斯分布)。
2)如果k-means不能满足您的期望,那么现在是时候阅读和思考更多了。然后我建议阅读a good survey paper。最常见的技术是在几种编程语言和数据挖掘框架中实现的,其中许多可以免费下载和使用。
3)如果应用最先进的聚类技术还不够,那么现在是设计新技术的时候了。然后你可以自己思考或与机器学习专家联系。答案 3 :(得分:0)
由于您的大多数数据都是连续的,并且假设能量消耗和生成是正态分布是合理的,我会使用统计方法进行聚类。
如:
这些方法优于基于度量的聚类算法(例如k-means)的优势在于我们可以利用我们处理 averages 的事实,并且我们可以对计算这些平均值的分布。