从许多变量中选择要编写模型

时间:2018-01-20 21:02:12

标签: r variables memory-management logistic-regression

我有超过1000万条目的大数据。

我想要做任何我想要的分析,所以我决定把重点放在某个国家的一部分人口中。所以现在我大约有150,000个参赛作品。现在我有26个变量,并希望对数据运行逻辑回归模型,但R表示

  

错误:无法分配大小为130.3 Gb的矢量

我假设因为我有太多变数。我尝试了如何为您的模型选择变量,但像step这样的函数要求您拥有完整的模型,因此我不确定如何继续。

我是否应该消除变量,我认为这些变量不会对我的响应变量产生影响,或者我的数据集是否仍然太大?

1 个答案:

答案 0 :(得分:1)

如果您提供更多信息,那就太好了。尽管如此......

除非您非常熟悉数据,否则您应该做的第一步是预先形成探索性数据分析More info here

我认为你有一个有监督的学习问题。在这种情况下,您可以根据不同的变量绘制标记的结果。见下图。

kaggle

你在图像上看到的是一个变量 - 家庭大小的分布,根据泰坦尼克号灾难中的生存结果。

在迭代此步骤时,您将更好地了解哪些变量包含预测的更多相关信息。

不久之后,您还会意识到您可能需要根据原始数据构建自己的变量/列。这是一个名为特征工程的过程。

之后,我认为您会遇到使用更先进的统计方法进行特征选择的问题。在这种情况下,caret包将非常方便。

有关机器学习的更详细介绍,我建议您查看www.kaggle.com

希望这会有所帮助。