应用错误收集

半监督聚类/分类

时间：2018-12-07 12:02:47

标签： machine-learning scikit-learn cluster-analysis data-mining data-science

我有来自传感器的数据，我想对该数据运行聚类算法。数据不包含有关群集标签的信息，但是我可以手动添加一些标签。

如何使用手动添加的标签来帮助无监督学习？

一个小例子-使用带有标签的测量作为k均值的初始中心。我可以针对该数据使用哪种基于密度的算法？

1 个答案:

答案 0 :(得分：0)

您可以使用init参数选择哪些样本将成为k均值的初始中心（请阅读文档here）。

如果将ndarray传递给init，则其形状应为（n_clusters，n_features）并给出初始中心。在这种情况下，将使用数组as explained here中指定的质心执行一次初始化。

所需的形状意味着init必须精确地包含n_clusters行，并且每行中的元素数量应与Actual_data_points as discussed here的维数匹配。