我有超过1000万条目的大数据。
我想要做任何我想要的分析,所以我决定把重点放在某个国家的一部分人口中。所以现在我大约有150,000个参赛作品。现在我有26个变量,并希望对数据运行逻辑回归模型,但R表示
错误:无法分配大小为130.3 Gb的矢量
我假设因为我有太多变数。我尝试了如何为您的模型选择变量,但像step这样的函数要求您拥有完整的模型,因此我不确定如何继续。
我是否应该消除变量,我认为这些变量不会对我的响应变量产生影响,或者我的数据集是否仍然太大?
答案 0 :(得分:1)
如果您提供更多信息,那就太好了。尽管如此......
除非您非常熟悉数据,否则您应该做的第一步是预先形成探索性数据分析。 More info here。
我认为你有一个有监督的学习问题。在这种情况下,您可以根据不同的变量绘制标记的结果。见下图。
你在图像上看到的是一个变量 - 家庭大小的分布,根据泰坦尼克号灾难中的生存结果。
在迭代此步骤时,您将更好地了解哪些变量包含预测的更多相关信息。
不久之后,您还会意识到您可能需要根据原始数据构建自己的变量/列。这是一个名为特征工程的过程。
之后,我认为您会遇到使用更先进的统计方法进行特征选择的问题。在这种情况下,caret包将非常方便。
有关机器学习的更详细介绍,我建议您查看www.kaggle.com
希望这会有所帮助。