如何处理庞大的数据集以避免错误“无法分配大小为.. Gb的向量”?

时间:2019-05-04 16:00:18

标签: r dataset

我有一项家庭作业,必须为数据集找到最佳的分类模型。我的训练集包括733个观测值,每个观测值有90000个变量。

我的问题如下:每当我尝试对数据集(鼠标,rpart等)执行操作时,都会收到错误消息“无法分配大小为x Gb的向量”,而x却像30- 60 Gb。

我的问题是:如何处理如此庞大的数据集?

由于观测值不多,但特征变量很多,我相信一种解决方案可以包括从现有变量中派生新的特征变量,以减少变量的数量,但是我不知道R中是否有可能以及在统计上是否正确。

我在Internet上做了一些研究,但没有发现任何对我有帮助的东西。如果有人可以帮助我,我将不胜感激。一般来说,我对R和统计知识了解甚少,这可能对您有用。

提前感谢您的回复!

0 个答案:

没有答案