我正在尝试使用K Means方法绘制聚类,而数据集则由一百万条记录和60个维度组成。
为了达到95%的差异,我通过对数据集进行PCA将维数减少到35个组件。因此,现在我必须绘制具有100万条记录的K Means聚类,并找到异常值。
matplotlib
花费大量时间来生成2D结果,此外,如何将多维数据集绘制到2D?
答案 0 :(得分:0)
对于具有这么多维度的数据集,我建议使用t-SNE可视化-例如sklearn.manifold.TSNE
此外,出于可视化目的,我建议合并非常接近的数据点,因此限制了绘图算法的输入数量(通过这种方式,您可以显着降低生成绘图的处理步骤的复杂性)