应用错误收集

您可以在具有大量空值的数据集上运行奇异值分解或PCA

时间：2015-02-07 16:38:17

标签： null cluster-analysis normalization pca svd

我有一个包含300个变量的数据集，观察结果超过300K。有些列有很多空值（某些变量高达90％）。我想最终在数据集上运行聚类算法，但我需要先减少维数。我打算使用SVD或PCA。当运行SVD或PCA时，空值是否会阻止我获得正确的结果？是这样，对我应该做什么的任何建议？省略或估算数据？

此外，变量的范围也有很大差异。我应该通过将值转换为列的平均值的标准差来规范化数据吗？

谢谢，埃里克

1 个答案:

答案 0 :(得分：0)

PCA是O（n * d ^ 3）。鉴于d只有300而n只有300k，你不应该有任何问题。你真的尝试过吗？