如何在Python中绘制具有多个维度的大型数据集?

时间:2018-09-13 20:07:07

标签: python matplotlib cluster-analysis k-means pca

我正在尝试使用K Means方法绘制聚类,而数据集则由一百万条记录和60个维度组成。

为了达到95%的差异,我通过对数据集进行PCA将维数减少到35个组件。因此,现在我必须绘制具有100万条记录的K Means聚类,并找到异常值。

matplotlib花费大量时间来生成2D结果,此外,如何将多维数据集绘制到2D?

1 个答案:

答案 0 :(得分:0)

对于具有这么多维度的数据集,我建议使用t-SNE可视化-例如sklearn.manifold.TSNE

此外,出于可视化目的,我建议合并非常接近的数据点,因此限制了绘图算法的输入数量(通过这种方式,您可以显着降低生成绘图的处理步骤的复杂性)