应用错误收集

哪种聚类算法最适合聚类一维特征？

时间：2016-06-13 19:31:10

标签： algorithm machine-learning scikit-learn cluster-analysis scalar

哪种clusetring机器学习算法最好用于聚类一维数值特征（标量值）？它是Birch，Spectral clustering，k-means，DBSCAN ......还是别的什么？

2 个答案:

答案 0 :(得分：2)

对于多变量数据，所有这些方法都更好。除了历史上用于一维数据的k-means之外，它们都是设计时考虑到多变量问题，并且没有一个针对1维数据的特定情况进行了很好的优化。

对于一维数据，使用核密度估计。 KDE在1d中是一项不错的技术，具有强大的统计支持，并且很难用于多维聚类。

答案 1 :(得分：0)

看看K-means clustering algorithm。该算法非常适用于聚类一维特征向量。但是K意味着当你的训练数据集中存在异常值时，聚类算法不能很好地工作，在这种情况下你可以使用一些先进的机器学习算法。

我建议在为数据集和问题陈述实施机器学习算法（分类，聚类等）之前，可以使用Weka Toolkit检查哪种算法最适合您的问题陈述。 Weka工具包是大量机器学习和数据挖掘算法的集合，可以轻松实现给定问题。一旦确定哪种算法最适合您的问题，您就可以修改或编写自己的算法实现。通过调整它，您甚至可以实现更高的准确性。你可以从这里download weka。