我有一个包含300个变量的数据集,观察结果超过300K。有些列有很多空值(某些变量高达90%)。我想最终在数据集上运行聚类算法,但我需要先减少维数。我打算使用SVD或PCA。当运行SVD或PCA时,空值是否会阻止我获得正确的结果?是这样,对我应该做什么的任何建议?省略或估算数据?
此外,变量的范围也有很大差异。我应该通过将值转换为列的平均值的标准差来规范化数据吗?
谢谢, 埃里克
答案 0 :(得分:0)
PCA是O(n * d ^ 3)。鉴于d只有300而n只有300k,你不应该有任何问题。你真的尝试过吗?