应用错误收集

如何在Python中绘制具有多个维度的大型数据集？

时间：2018-09-13 20:07:07

标签： python matplotlib cluster-analysis k-means pca

我正在尝试使用K Means方法绘制聚类，而数据集则由一百万条记录和60个维度组成。

为了达到95％的差异，我通过对数据集进行PCA将维数减少到35个组件。因此，现在我必须绘制具有100万条记录的K Means聚类，并找到异常值。

matplotlib花费大量时间来生成2D结果，此外，如何将多维数据集绘制到2D？

1 个答案:

答案 0 :(得分：0)

对于具有这么多维度的数据集，我建议使用t-SNE可视化-例如sklearn.manifold.TSNE

此外，出于可视化目的，我建议合并非常接近的数据点，因此限制了绘图算法的输入数量（通过这种方式，您可以显着降低生成绘图的处理步骤的复杂性）