我有一项家庭作业,必须为数据集找到最佳的分类模型。我的训练集包括733个观测值,每个观测值有90000个变量。
我的问题如下:每当我尝试对数据集(鼠标,rpart等)执行操作时,都会收到错误消息“无法分配大小为x Gb的向量”,而x却像30- 60 Gb。
我的问题是:如何处理如此庞大的数据集?
由于观测值不多,但特征变量很多,我相信一种解决方案可以包括从现有变量中派生新的特征变量,以减少变量的数量,但是我不知道R中是否有可能以及在统计上是否正确。
我在Internet上做了一些研究,但没有发现任何对我有帮助的东西。如果有人可以帮助我,我将不胜感激。一般来说,我对R和统计知识了解甚少,这可能对您有用。
提前感谢您的回复!