应用错误收集

我正在尝试对以下类型的非常大的数据集进行聚类（AgglomerativeCluster，kMeans：
[0，0，0，0，1，2，2，2，2，2，3，4，4，4，5，5，5，5，5，5，5，5，5]
也就是说，一个整数样本重复多次。

简而言之，我想通过将样本转换成更短的计数列表来进行预处理：
[（0，4），（1，1），（2，4），（3，1），（4，3），（5，9）]
然后将其用作聚类的输入。

问：您知道如何使用这种计数列表作为聚类的输入吗？

我这样做的主要动机是，当输入数组的长度超过50000时，sklearn.cluster.KMeans或sklearn.cluster.AgglomerativeClustering将引发异常。我的数据集的长度为数百万。 >

我已经启动并运行了一个数据压缩阶段，在其中：

，然后继续使用平均值列表作为聚类的输入。这有效。但是，生成的群集显示出对块大小的依赖性，我发现这种选择很难捍卫。

我还尝试使用每个值的频率作为权重，这是sklearn.cluster.KMeans似乎允许的。但是，我真的在这里猜测这些砝码的用途。

谢谢