您可以在具有大量空值的数据集上运行奇异值分解或PCA

时间:2015-02-07 16:38:17

标签: null cluster-analysis normalization pca svd

我有一个包含300个变量的数据集,观察结果超过300K。有些列有很多空值(某些变量高达90%)。我想最终在数据集上运行聚类算法,但我需要先减少维数。我打算使用SVD或PCA。当运行SVD或PCA时,空值是否会阻止我获得正确的结果?是这样,对我应该做什么的任何建议?省略或估算数据?

此外,变量的范围也有很大差异。我应该通过将值转换为列的平均值的标准差来规范化数据吗?

谢谢, 埃里克

1 个答案:

答案 0 :(得分:0)

PCA是O(n * d ^ 3)。鉴于d只有300而n只有300k,你不应该有任何问题。你真的尝试过吗?