标签: r bigdata normalization redundancy
我有一个包含163列(变量)和199566行(数据)的数据集。 那么我怎样才能消除冗余数据? 我可以使用正态分布吗?
答案 0 :(得分:0)
也许尝试dimensionality reduction methods,例如PCA。它将帮助您减少列数,就好像我正确理解您想要实现的目标一样。
如果您以前没有使用它们,您可能需要阅读更多关于这些技术的具体内容,但上述内容将帮助您入门。