使用R清除大数据中不必要的变量

时间:2018-04-23 10:27:41

标签: r bigdata normalization redundancy

我有一个包含163列(变量)和199566行(数据)的数据集。 那么我怎样才能消除冗余数据? 我可以使用正态分布吗?

1 个答案:

答案 0 :(得分:0)

也许尝试dimensionality reduction methods,例如PCA。它将帮助您减少列数,就好像我正确理解您想要实现的目标一样。

如果您以前没有使用它们,您可能需要阅读更多关于这些技术的具体内容,但上述内容将帮助您入门。