哪种聚类算法最适合聚类一维特征?

时间:2016-06-13 19:31:10

标签: algorithm machine-learning scikit-learn cluster-analysis scalar

哪种clusetring机器学习算法最好用于聚类一维数值特征(标量值)? 它是Birch,Spectral clustering,k-means,DBSCAN ......还是别的什么?

2 个答案:

答案 0 :(得分:2)

对于多变量数据,所有这些方法都更好。除了历史上用于一维数据的k-means之外,它们都是设计时考虑到多变量问题,并且没有一个针对1维数据的特定情况进行了很好的优化。

对于一维数据,使用核密度估计。 KDE在1d中是一项不错的技术,具有强大的统计支持,并且很难用于多维聚类。

答案 1 :(得分:0)

看看K-means clustering algorithm。该算法非常适用于聚类一维特征向量。但是K意味着当你的训练数据集中存在异常值时,聚类算法不能很好地工作,在这种情况下你可以使用一些先进的机器学习算法。

我建议在为数据集和问题陈述实施机器学习算法(分类,聚类等)之前,可以使用Weka Toolkit检查哪种算法最适合您的问题陈述。 Weka工具包是大量机器学习和数据挖掘算法的集合,可以轻松实现给定问题。一旦确定哪种算法最适合您的问题,您就可以修改或编写自己的算法实现。通过调整它,您甚至可以实现更高的准确性。你可以从这里download weka。